TECNOLOGÍA

Software: Google detalla cómo funciona 'Look and Talk', una solución que permite establecer contacto visual con el Asistente

Descubre las últimas noticias y novedades de la tecnología en COPE

Software: Google detalla cómo funciona 'Look and Talk', una solución que permite establecer contacto visual con el Asistente

Redacción digital

Madrid - Publicado el - Actualizado

4 min lectura

Las últimas noticias sobre tecnología con COPE Internet, redes sociales, móviles, gadgets, software, seguridad.

El Asistente de Google, que hasta ahora funciona mediante comandos de voz, está más cerca de poder ser activado con la mirada, gracias a una nueva funcionalidad denominada 'Look and Talk' ('Mirar y hablar').

Actualmente, el Asistente de Google funciona en más de 95 países y en más de 29 idiomas y se solo se puede activar con dos comandos, 'OK, Google' y 'Hey, Google'. Una vez puesto en marcha, escucha y ejecuta las órdenes que indique el usuario.

Con el objetico de que el contacto entre la persona y la máquina, la compañía ha explorado nuevos método de interacción, cuyos avances comentó a finales de 2020, en la presentación de 'Look to Speak'.

Entonces, la compañía de Mountain View indicó que esta aplicación tenía como objetivo permitir a las personas con discapacidad motora y del habla comunicarse con los dispositivos a través de los ojos, con la mirada, así como elegir rases prediseñadas para que estos las reproducieran.

Más adelante, en el marco de la conferencia para desarrolladores de Google I/O 2022, el fabricante fue un paso más allá con 'Look and Talk'. Esta tecnología es capaz de analizar audio, vídeo y texto para determinar si el usuario se está dirigiendo directamente al Nest Hub Max.

Ahora, la tecnológica ha ofrecido una actualización de esta tecnología en su blog sobre inteligencia artificial (IA) y ha dado a conocer en mayor detalle cómo funciona este sistema de reconocimiento.

En primer lugar, Google ha comentado que 'Look and Talk' emplea un algoritmo basado en ocho modelos de aprendizaje automático ('machine learning') . Gracias a él, puede distinguir las interacciones intencionales de las miradas a una distancia de hasta cinco pies (1,5 metros aproximadamente) para determinar si el usuario busca ponerse en contacto con el dispositivo.

La tecnológica ha desarrollado este algoritmo enfrentándolo a distintas variables y características. Entre ellas, las que son de carácter demográfico, como la edad y los tonos de piel, así como las diferentes condiciones acústicas y perspectivas de la cámara.

En tiempo real, esta tecnología también se enfrenta a perspectivas de cámara inusuales, debido a que generalmente estas pantallas inteligentes se sitúan en puntos concretos del hogar a una altura media–baja.

El proceso en el que se basa 'Look and Talk' consta de tres fases. Para empezar, el asistente identifica la presencia de una persona mediante una tecnología que detecta el rostro y establece la distancia a la que se sitúa el sujeto.

Gracias a la tecnología Face Match, esta solución determina si dicha persona está registrada en el sistema para comunicarse con el dispositivo, un método que utilizan otros asistentes, como Alexa.

En esta primera fase de reconocimiento, el asistente también se apoya en otras señales visuales, como el ángulo en el que se establece la mirada del usuario, con el fin de determinar si este busca interactuar visualmente con el dispositivo o no.

A continuación, da comienzo la segunda fase, en la que el asistente tiene en cuenta señales adicionales y escucha la consulta del usuario, para concretar si este discurso está dirigido a él.

Para ello, se apoya en tecnologías como Voice Match, que valida el resultado arrojado por Face Match previamente y lo complementa. A continuación, 'Look and Talk' ejecuta un modelo de reconocimiento de voz automático, que transcribe las palabras y las órdenes del emisor.

Más adelante, el asistente analiza esta transcripción y la información de naturaleza no léxica del audio, como el tono, la velocidad del discurso o sonidos que puedan muestren la indecisión del usuario durante el enunciado. También se apoya en señales visuales contextuales para determinar la probabilidad de que la interacción estuviese destinada al Asistente.

En último lugar, cuando el modelo de comprensión de esta intención determina que la declaración del usuario estaba destinada al Asistente, 'Look and Talk' pasa a la fase en la que procesa la consulta y busca darle respuesta.

Finalmente, la compañía ha reconocido que cada modelo que admite este sistema se ha evaluado y mejorado de forma aislada, así como probado en una gran variedad de condiciones ambientales que permitan introducir parámetros de personalización para su uso.

Puedes leer nuestra sección de tecnología para leer más noticias de tu sección favorita.

Toda la información actualizada de forma constante en la web del diario, así como en las redes sociales del mismo: Facebook, Twitter e Instagram.

Además, si todavía no recibes las alertas de última hora en tu móvil para conocer la información antes que nadie, puedes bajarte sin ningún coste la aplicación de COPE para iOS (iPhone) y Android.

La aplicación de COPE es el mejor canal para escuchar la radio en directo, pero es también un completo medio de información digital que cuenta las noticias cuando se están produciendo, que te alerta de lo que sucede mediante notificaciones en tu móvil. Continúa leyendo las últimas noticias de actualidad en nuestra página web para estar siempre informado de lo que está pasando.

Temas relacionados

Programas

Último boletín

17:00H | 26 NOV 2024 | BOLETÍN