FX.co - Meta lanzará Chameleon LLM multimodal

typeContent_19130:::2024-05-22T20:41:00

Meta lanzará Chameleon LLM multimodal

Meta Platforms (META) ha desvelado su último avance en inteligencia artificial: un sofisticado modelo de lenguaje grande multimodal llamado Chameleon.

Según el documento de investigación de la compañía, Chameleon está diseñado para llevar a cabo una amplia variedad de tareas que previamente requerían múltiples modelos. Este modelo innovador demuestra una integración de información superior en comparación con sus predecesores.

Chameleon emplea una arquitectura 'early-fusion token-based mixed-modal', lo que le permite aprender de una variedad de entradas, incluyendo imágenes, código, texto y más. El modelo usa una combinación de tokens de imagen, texto y código para generar secuencias.

"El espacio unificado de tokens de Chameleon le permite razonar y generar secuencias intercaladas de imágenes y texto sin necesidad de componentes específicos para cada modalidad", afirma el documento de investigación.

El entrenamiento del modelo involucra dos etapas y utiliza un conjunto de datos que comprende 4.4 billones de tokens de texto, combinaciones de texto e imagen, y secuencias intercaladas de texto e imagen. Se han entrenado dos versiones de Chameleon: una con 7 mil millones de parámetros y otra con 34 mil millones de parámetros, durante un periodo de más de 5 millones de horas en GPUs Nvidia A100 de 80GB.

En el panorama competitivo, OpenAI ha lanzado recientemente GPT-4o, mientras que Microsoft (MSFT) introdujo su modelo MAI-1 hace unas pocas semanas.

FX.co ★ Meta lanzará Chameleon LLM multimodal

Meta lanzará Chameleon LLM multimodal