Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

M$^2$IV: Hacia un aprendizaje multimodal en contexto eficiente y detallado mediante la ingeniería de representación

Created by
  • Haebom

Autor

Yanshu Li, Yi Cao, Hongyang He, Qisen Cheng, Xiang Fu, Xi Xiao, Tianyang Wang, Ruixiang Tang

Describir

Este artículo propone M$^2$IV, una novedosa técnica de ingeniería de representación para mejorar la eficiencia del aprendizaje contextual multimodal (ICL) en modelos de visión-lenguaje a gran escala (LVLM). Para abordar la naturaleza intensiva en tokens de los ICL convencionales y el complejo problema de inferencia intermodal de pocos disparos, M$^2$IV inyecta directamente vectores multimodales en contexto aprendibles en el flujo residual de los LVLM, en lugar de demostraciones explícitas a nivel de token. Mediante el análisis de las funciones de la atención multicabeza (MHA) y los perceptrones multicapa (MLP), diseñamos una estrategia de entrenamiento que permite la destilación semántica de grano fino y un aprendizaje robusto de la representación intermodal. M$^2$IV mejora el rendimiento en diversas tareas y LVLM, reduciendo significativamente la sobrecarga de tokens y mejorando la escalabilidad a escenarios de múltiples disparos. Además, mejoramos la usabilidad mediante la introducción de VLibrary, que almacena, recupera y utiliza M$^2$IV entrenados. Los resultados experimentales muestran que M$^2$IV supera a las técnicas de ingeniería de representación e ICL existentes, logrando una mejora promedio de la precisión del 3,74 % y una mejora de la eficiencia.

Takeaways, Limitations

Takeaways:
Se presenta una nueva técnica de ingeniería de representación, M$^2$IV, que mejora significativamente la eficiencia del aprendizaje del contexto multimodal.
Se mejoró la escalabilidad para muchos escenarios de disparo al reducir la sobrecarga de tokens.
Mejoras de rendimiento para diversas tareas y LVLM (mejora de precisión promedio del 3,74 %)
VLibrary, un sistema de almacenamiento y recuperación de M$^2$IV entrenado para facilitar su uso
Limitations:
Las mejoras de rendimiento de M$^2$IV se basan en resultados experimentales en conjuntos de datos específicos y LVLM, y se necesita más investigación sobre el rendimiento de generalización.
Es necesario tener en cuenta la escalabilidad y facilidad de mantenimiento de VLibrary.
Se necesita más investigación para optimizar las estrategias de entrenamiento de M$^2$IV.
👍