MM1: Apple revela un nuevo modelo multimodal para la formación LLM – MacMagazine

Puntuación0
Puntuación0


Después de publicar detalles sobre modelos de inteligencia artificial para edición y animación de imágenes, investigadores de Manzana Recientemente presentó una nueva familia de modelos multimodales, llamada MM1. Su principal punto destacado es combinar diferentes fuentes de datos para entrenar otros modelos de lenguaje amplio (LLM), permitiéndoles ser más avanzados y flexibles.

Los resultados del estudio que describe el modelo fueron publicados en un artículo de los investigadores. Al combinar varios tipos de datos y arquitecturas, se puede lograr un rendimiento de vanguardia en modelos de inteligencia artificial. La habilidad es esencial para tareas que requieren la comprensión de matices más pequeños, como interpretar imágenes y comprender elementos visuales.

Por ejemplo, se utilizan pares de imagen y título, imagen y texto separados y datos de solo texto, que son esenciales para lograr un resultado avanzado. En otras palabras, al entrenar modelos utilizando una base de datos con información visual y lingüística variada, los modelos MM1 pueden realizar mejor tareas como subtitular imágenes, responder preguntas visuales e inferencia en lenguaje natural.

Los investigadores también entendieron que la elección del decodificador de imágenes, la resolución de las imágenes insertadas y el recuento de imágenes fichas La configuración de la imagen tiene un gran impacto en el rendimiento del modelo. El diseño del conector visión-lenguaje sería comparativamente de menor importancia. En otras palabras, con un mayor refinamiento y desarrollo de los componentes visuales, los modelos deberían permitir aún más ganancias.

También se destacaron las capacidades contextuales de MM1, especialmente su configuración más avanzada, que cuenta con 30 mil millones de parámetros. Con esto, puede realizar una interpretación de varios pasos de varias imágenes utilizando pocos comandos directos en el estilo de «cadena de pensamiento».

El modelo también es capaz de realizar predicciones contextuales gracias a su entrenamiento a gran escala. Esto permite a MM1 contar objetos y seguir formatos personalizados, hacer referencia a partes de una imagen y realizar reconocimiento óptico de caracteres (OCR), demostrar conocimientos sobre objetos y realizar operaciones matemáticas.

Los resultados demuestran el potencial de los modelos multimodales para resolver problemas complejos que requieren que el sistema comprenda y genere lenguajes complejos. El desarrollo de modelos como el MM1 es sin duda una consecuencia de las inversiones de Apple en IA.

Deberíamos ver al menos parte del reflejo de esta ofensiva en la IA con posibles novedades en los próximos sistemas de Apple. Como lo destaca VentureBeatla empresa busca fortalecerse en el área frente a una feroz competencia, siendo MM1 parte de estos esfuerzos para integrar la IA generativa en sus productos.

Estaremos encantados de escuchar lo que piensas

Deje una respuesta

Lucas Laruffa
Logo