Pasar al contenido principal
Imagen
que-es-google-duple-y-como-funciona

¿Qué es Google Duplex y cómo funciona? - IA de Google

Tecnología | Artículo
  • Visitas
    612
  • Junio 2021
  • Fecha de publicación
  • Junio 2021
  • Tecnología
  • Artículo
  • Autor
  • Alberto de Torres
  • Director del Programa Superior en Internet de las Cosas e Industria 4.0 y profesor de ESIC y CEO de Nektiu.

Texto

Las experiencias de voz están cambiando radicalmente la forma en que interactuamos con la tecnología, como es la innovación que hace dos años Google lanzo al mercado: el nuevo sistema Google Duplex, basado en inteligencia artificial, que crea nuevas experiencias de voz que ayudan a realizar tareas por teléfono (por ejemplo: programar una cita, hacer una reserva, etc.).

Con este nuevo avance Google nos hace la vida más fácil eliminando tareas tediosas como hacer una llamada telefónica a una empresa o enviar un mensaje de texto. Aquí es donde entra Duplex, que nos permite gestionar muchas de estas tareas de forma sencilla.

¿Qué hay detrás de esta idea? ¿Cómo funciona Duplex?

Este servicio está integrado con el Asistente de Google y solamente tenemos que pedirle, mediante la voz, que haga una reserva en un determinado restaurante, por ejemplo, e introducir algunos parámetros como el número de personas, la fecha, la hora y el nombre de quien reserva. Una vez hecho esto, el Asistente de Google utilizará automáticamente Duplex para hacer una llamada telefónica a ese restaurante y reservar por ti; después te enviará una confirmación. Duplex imitará a un humano para que la conversación telefónica sea natural (y no alarmar a la persona que está al otro lado).

Este es el gran éxito de Duplex: la conversación de las llamadas telefónicas puede imitar a un humano con voces de personas reales e incluso añade interjecciones como hum para que parezca más humano. Duplex también reproduce fielmente las cadencias de las conversaciones, como puede ser la latencia en las respuestas. Por ejemplo, si la persona dice «¿hola?», tiene que responder rápidamente, pero si dice una frase muy larga, debe tomarse un tiempo antes de responder para imitar el tiempo de reflexión.  Google ha conseguido con Duplex un sistema muy avanzado, aunque en algunos momentos hace alguna inflexión poco natural y robótica, pero son lo suficientemente pequeñas como para que nadie al otro lado del teléfono piense mucho en ello, si es que lo notan.

Aunque Duplex en las tareas básicas es muy preciso, también necesita mejoras, como gestionar fácilmente algunas declaraciones complejas o los problemas con el ruido de fondo o la calidad del sonido. Para estas situaciones en las que no puede completar su tarea, Google Duplex ha incorporado un mecanismo de seguridad para que un operador humano complete la tarea.

La tecnología que usa Duplex está basada en el procesamiento del lenguaje natural. Para ello, se necesita un traductor de voz a texto preciso con el que entender lo que le dice la persona al teléfono. A continuación, otro modelo tiene que interpretar el contexto del objetivo de la llamada telefónica y luego hay que crear una respuesta adecuada. Finalmente, un modelo de conversión de texto a voz traduce esta respuesta en una voz similar a la humana que la diga por teléfono. Estos pasos deben repetirse constantemente a lo largo de la llamada telefónica en tiempo real, por lo que los modelos deben ser precisos y rápidos.

Google Duplex utiliza una red neuronal recurrente combinada con la tecnología de reconocimiento automático del habla (RAH o, en inglés, ASR: automatic speech recognition) de Google, los parámetros de la conversación (por ejemplo: la hora deseada, los nombres) y un sistema de conversión de texto a voz (TTS: text-to-speech en inglés).

Podemos decir que esta innovación de Google es un avance que sin duda cambiará la interacción habitual entre las empresas y sus clientes.

Os recomendamos que no dejéis de actualizaros en las últimas tendencias y adquiráis los conocimientos adecuados. Os invito a que miréis detenidamente el Master en Inteligencia Artificial.

 

 

  • Fecha de publicación
  • Junio 2021
  • Tecnología
  • Artículo
  • Autor
  • Alberto de Torres
  • Director del Programa Superior en Internet de las Cosas e Industria 4.0 y profesor de ESIC y CEO de Nektiu.


También te puede interesar

Validación del Freight Driving Behavior Questionnaire: un breve (y preciso) cuestionario de comportamiento de conducción de riesgo para conductores profesionales de larga distancia

Management

Aunque el Driving Behavior Questionnaire (DBQ) sigue siendo la herramienta más conocida para evaluar los comportamientos de riesgo de conducción en la carretera entre los conductores de vehículos d...

¿Qué es el Metaverso?

Tecnología

Parece que el metaverso ha emergido de repente, en especial desde que Facebook pasó a ser Meta, y Meta parece ser un metaverso. Lo que nos cuenta Mark Zuckerberg es que en el metaverso de Meta vamos ...

¿Cómo hacer una previsión de ventas?

Comercial y Ventas

En una de las últimas ediciones del Programa Superior de Ventas (PSDV) de ESIC, se suscitó un debate especialmente estimulante y enriquecedor sobre la necesidad de abordar con rigor las previsiones ...