Meta Platforms (META) ha desvelado su último avance en inteligencia artificial: un sofisticado modelo de lenguaje grande multimodal llamado Chameleon.
Según el documento de investigación de la compañía, Chameleon está diseñado para llevar a cabo una amplia variedad de tareas que previamente requerían múltiples modelos. Este modelo innovador demuestra una integración de información superior en comparación con sus predecesores.
Chameleon emplea una arquitectura 'early-fusion token-based mixed-modal', lo que le permite aprender de una variedad de entradas, incluyendo imágenes, código, texto y más. El modelo usa una combinación de tokens de imagen, texto y código para generar secuencias.
"El espacio unificado de tokens de Chameleon le permite razonar y generar secuencias intercaladas de imágenes y texto sin necesidad de componentes específicos para cada modalidad", afirma el documento de investigación.
El entrenamiento del modelo involucra dos etapas y utiliza un conjunto de datos que comprende 4.4 billones de tokens de texto, combinaciones de texto e imagen, y secuencias intercaladas de texto e imagen. Se han entrenado dos versiones de Chameleon: una con 7 mil millones de parámetros y otra con 34 mil millones de parámetros, durante un periodo de más de 5 millones de horas en GPUs Nvidia A100 de 80GB.
En el panorama competitivo, OpenAI ha lanzado recientemente GPT-4o, mientras que Microsoft (MSFT) introdujo su modelo MAI-1 hace unas pocas semanas.