Descubren limitaciones en el aprendizaje automático de modelos matemáticos

Investigadores del SeesLab de la Universidad Rovira y Virgili (URV) de Tarragona-Reus han demostrado por primera vez que los algoritmos de aprendizaje automático no siempre logran encontrar modelos interpretables a partir de datos.

Agencia EFE

Publicado el 14 mar 2023, 13:36 - Actualizado 14 mar 2023, 13:37

3 min lectura

Investigadores del SeesLab de la Universidad Rovira y Virgili (URV) de Tarragona-Reus han demostrado por primera vez que los algoritmos de aprendizaje automático no siempre logran encontrar modelos interpretables a partir de datos.

Los investigadores, que han publicado su trabajo en la revista "Nature Communications", han recordado que el aprendizaje automático ya está presente desde la aparición de anuncios personalizados en Internet, la recomendación de contactos y contenidos en las redes sociales o las estimaciones de la probabilidad de que un medicamento o un tratamiento funcione en determinados pacientes.

Esta rama de la inteligencia artificial se basa en desarrollar modelos capaces de procesar grandes cantidades de datos, aprender de forma automática e identificar patrones complejos para hacer predicciones.

Pero por la complejidad y elevado número de parámetros de estos modelos, cuando un algoritmo de aprendizaje automático funciona mal o se detecta un comportamiento erróneo, a menudo es imposible identificar el motivo e incluso, según los investigadores, cuando funcionan como se espera, es difícil entender por qué.

Una alternativa a estos modelos de 'caja negra', cuyo comportamiento es difícil o imposible de controlar, es utilizar el aprendizaje automático para desarrollar modelos matemáticos interpretables.

Sin embargo, ahora los investigadores de la URV han confirmado que a veces nunca se podrán identificar modelos interpretables a partir sólo de datos.

Según los investigadores, desde siempre la comunidad científica ha descrito los fenómenos naturales mediante modelos matemáticos relativamente simples, como la ley de la gravitación de Newton, por ejemplo.

A veces se llegaba a estos modelos de forma deductiva, partiendo de consideraciones fundamentales, pero otras, las más frecuentes, la forma de conseguir estos modelos era de forma inductiva, a partir de datos.

Actualmente, con la gran cantidad de datos disponibles para cualquier tipo de sistema, los modelos interpretables se pueden identificar también mediante aprendizaje automático.

Los investigadores diseñaron en 2020 un 'robot científico', es decir, un algoritmo capaz de identificar automáticamente modelos matemáticos que, además de mejorar la fiabilidad de sus predicciones, aporta información para comprender los datos, igual que un científico.

Ahora han dado un paso más y han demostrado, gracias precisamente a este 'robot científico', que "en ocasiones no es posible averiguar el modelo matemático que realmente rige el comportamiento de un sistema", ha explicado la catedrática de Ingeniería Química de la URV Marta Sales-Pardo, que ha liderado la investigación junto a Roger Guimerà.

Según los investigadores, todos los datos que se puedan obtener de un sistema tienen 'ruido', es decir, sufren distorsiones o pequeñas fluctuaciones, que serán diferentes cada vez que se mida.

Si los datos tienen poco ruido, un robot científico identificará un modelo claro que puede demostrarse, pero cuanto mayor sea esta variabilidad, más difícil es descubrir el modelo correcto, ya que el algoritmo puede dar como resultado más de un modelo que podría ajustarse bien a los datos.

"Cuando esto ocurre hablamos de incertidumbre del modelo, ya que no podemos estar seguros de cuál es el correcto", ha especificado Guimerà.

"Ante esta incertidumbre la clave es usar un enfoque riguroso, llamado bayesiano, que consiste en utilizar la teoría de la probabilidad sin aproximaciones", ha detallado el investigador.

"Nuestro estudio confirma que existe un nivel de ruido a partir del cual ningún mecanismo conseguirá descubrir el modelo correcto. Es una cuestión de teoría de probabilidad: muchos modelos son igual de buenos para los datos, y no podremos saber cuál es el correcto", ha aseverado Guimerà.

Los resultados de este estudio desmontan la idea que hasta ahora se tenía de que a partir de los datos siempre es posible encontrar el modelo matemático que los describe.

"Ahora se demuestra que si no se tienen suficientes datos o éstos tienen demasiado ruido esto será imposible, incluso cuando el modelo correcto sea sencillo. Estamos ante una limitación fundamental del aprendizaje automático: los datos no tienen por qué ser suficientes para ver lo que está pasando en un sistema concreto", ha concluido.