[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

El verdadero aprendizaje multimodal en contexto requiere atención al contexto visual

Created by
  • Haebom

Autor

Shuo Chen, Jianzhe Liu, Zhen Han, Yan Xia, Daniel Cremers, Philip Torr, Volker Tresp, Jindong Gu

Describir

Este artículo se centra en mejorar la capacidad de aprendizaje multimodal en contexto (MICL) de los modelos lingüísticos multimodales a gran escala (MLLM). Señalamos que los MLLM existentes tienden a ignorar la información visual y a depender excesivamente de los patrones textuales, lo que conduce a una simple imitación textual en lugar de una verdadera adaptación multimodal. Para abordar este problema, proponemos la reasignación dinámica de la atención (DARA), una estrategia eficiente de ajuste fino que reequilibra la atención entre los elementos visuales y textuales para inducir al modelo a prestar atención al contexto visual. Además, presentamos TrueMICL, un conjunto de datos específico de MICL que requiere explícitamente la integración de información multimodal, especialmente contenido visual, para la finalización precisa de tareas. Los resultados experimentales demuestran que el método propuesto mejora significativamente la verdadera capacidad de aprendizaje multimodal en contexto.

Takeaways, Limitations

Takeaways:
Presentamos DARA, una estrategia de ajuste eficaz para mejorar el rendimiento MICL de MLLM.
Presentamos TrueMICL, un conjunto de datos específico de MICL que requiere explícitamente la integración de información visual.
El conjunto de datos TrueMICL permite evaluar la capacidad de MLLM para aprender en un contexto verdaderamente multimodal.
Demostramos que la combinación de DARA y TrueMICL mejora sustancialmente la capacidad de aprendizaje de MLLM en contextos multimodales.
Limitations:
Se necesita más investigación sobre el rendimiento de generalización de DARA y TrueMICL.
Es necesario ampliar los conjuntos de datos para incluir información visual más diversa y compleja.
Se necesita un análisis más profundo del coste computacional y la eficiencia del método propuesto.
👍