Tecnología

El chatbot Grok ofrecerá respuestas a imágenes con la implementación de las capacidades multimodales de Grok-1.5V

Europa Press

Publicado el 22 may 2024, 11:32 - Actualizado 22 may 2024, 11:33

2 min lectura

MADRID, 22 (Portaltic/EP)

X (antigua Twitter) ha compartido sus avances con las capacidades multimodales de su modelo de Inteligencia Artificial (IA) generativa Grok, que puede procesar imágenes y contenido visual, para responder preguntas relacionadas con dicho contenido.

La plataforma liderada por Elon Musk presentó su 'chatbot' en noviembre del pasado año, que fue lanzado en versión de prueba para los suscriptores de Premium+, con capacidades para ofrecer respuestas a los usuarios en tiempo real. Esta herramienta está impulsado por el modelo de lenguaje del mismo nombre, del que a finales de marzo anunció la versión Grok-1.5, que incluye mejoras en su capacidad de rendimiento y en tareas relacionadas con la codificación y las matemáticas.

Recientemente, X presentó una nueva actualización de su modelo con Grok-1.5V, que añadió capacidades multimodales. Es decir, que puede procesar información visual, como documentos, cuadros, diagramas, capturas de pantalla, gráficos y fotografías.

Ahora, la compañía de IA de Elon Musk, xAI, ha compartido los avances de Grok para procesar información visual y ha confirmado que el 'chatbot' es capaz de analizar y tratar imágenes, así como responder preguntas relacionadas, con la implementación de Grok-1.5V.

Así se recoge en la actualización de los documentos de un kit de desarrollo de 'software' (SDK), en el que se muestra una prueba de la IA multimodal, que ya está disponible para los desarrolladores.

En concerto, las líneas de código Python especifican cómo se puede utilizar la biblioteca del SDK de xAI para que el 'chatbot' genere una respuesta basada tanto en texto como en imágenes. Así, en el ejemplo compartido, el código detalla que la IA recibe la imagen y la lee para analizarla. Tras ello, el 'chatbot' recibe la pregunta "¿Qué es esto?" y utiliza el SDK de xAI para resolvers.

Tal y como mostró recientemente X en una publicación del blog de xAI, gracias a las capacidades multimodales, Grok puede escribir código a partir de una imagen de un diagrama, recibir una un meme y ofrecer una explicación, analizar una imagen de una etiqueta con valores nutricionales y calcular las calorías del alimento al que pertenece o, incluso, crear un cuento a partir de un dibujo.

Con todo ello, X continúa avanzando en las capacidades de IA de su 'chatbot', por lo que las capacidades multimodales del 'chatbot' Grok llegarán a los usuarios de forma general en un futuro.