Desarrollan una tecnología que convierte el lenguaje de signos en texto hablado

Científicos del Barcelona Supercomputing Center-Centro Nacional de Supercomputación (BSC-CNS) y de la Universidad Politécnica de Cataluña han desarrollado una nueva tecnología que, utilizando la inteligencia artificial (IA) convierte frases en lengua de signos grabadas en vídeo a lengua hablada en formato texto.

Agencia EFE

Publicado el 18 may 2023, 13:23 - Actualizado 18 may 2023, 14:04

3 min lectura

Científicos del Barcelona Supercomputing Center-Centro Nacional de Supercomputación (BSC-CNS) y de la Universidad Politécnica de Cataluña han desarrollado una nueva tecnología que, utilizando la inteligencia artificial (IA) convierte frases en lengua de signos grabadas en vídeo a lengua hablada en formato texto.

Con la presentación de esta innovación, que rompe algunas de las barreras de comunicación a las que habitualmente se enfrentan las personas sordas, el BSC-CNS se ha querido sumar a la celebración este 18 de mayo del Global Accessibility Awareness Day.

La investigadora del BSC y de la UPC Laia Tarrés ha explicado que, pese a los avances en tecnologías de reconocimiento de voz como Alexa y Siri, las lenguas de signos todavía no están incluidas en estas aplicaciones, cada vez más presentes en la vida cotidiana de muchos hogares.

"Este agravio impone una barrera a las personas que dependen de la lengua de signos como modo de comunicación favorito para interactuar con la tecnología y acceder a los servicios digitales diseñados solo para lenguas habladas", según Tarrés.

Para romper esta barrera, han desarrollado este nuevo software de código abierto combinado técnicas de visión por computador, procesamiento de lenguaje natural y aprendizaje automático para avanzar en la traducción automática de lengua de signos, un problema complejo debido a la variabilidad y gran cantidad de lenguas de signos que existen en el mundo.

El sistema, todavía en fase experimental, utiliza un modelo de aprendizaje automático denominado Transformers, que es la base de otras herramientas de inteligencia artificial como el ChatGPT, para convertir frases enteras en lengua de signos en formato vídeo a lengua hablada en formato texto.

Actualmente está centrado en la lengua de signos americana (American Sign Language, ASL), pero podría adaptarse a cualquier otra lengua siempre que estén disponibles todos los datos necesarios, es decir, que exista un corpus con datos paralelos donde cada frase de lengua de signos (en formato vídeo) tenga la correspondiente traducción en lengua hablada (en formato texto).

"La nueva herramienta es una extensión de una publicación anterior, también del BSC y la UPC, denominada How2Sign, donde publicaron los datos necesarios para entrenar a los modelos (más de 80 horas de vídeos con intérpretes de lengua de signos americano traduciendo videotutoriales como recetas de cocina o trucos de bricolaje).

Con estos datos ya disponibles, el equipo ha desarrollado un nuevo software de código abierto capaz de aprender el mapeado entre vídeo y texto", ha detallado Tarrés.

Los investigadores aseguran que este nuevo trabajo "es un paso en la dirección correcta pero igualmente destacan que todavía hay mucho margen de mejora".

"Estamos ante los primeros resultados que, por el momento, no permiten crear una aplicación concreta que dé servicio a los usuarios. El objetivo es seguir trabajando para mejorar la herramienta y obtener una aplicación real que impulse la creación de tecnologías accesibles para personas sordas", ha añadido Tarrés.

El proyecto se expondrá en el Centro de Cultura Contemporánea de Barcelona (CCCB) dentro de una gran exposición sobre inteligencia artificial que se inaugurará el próximo mes de octubre.