Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

MM-Prompt: Ajuste de indicaciones multimodales para la respuesta visual continua a preguntas

Created by
  • Haebom

Autor

Xu Li, Fan Lyu

Describir

Este artículo explora el uso del ajuste de indicaciones para permitir el aprendizaje multimodal continuo en la respuesta visual continua a preguntas (CVQA) basada en modelos pre-entrenados (PTMs). La mayoría de los métodos existentes separan las indicaciones intermodales y construyen indicaciones visuales y textuales por separado, lo que exacerba el desequilibrio modal y conduce a una degradación del rendimiento con el tiempo. Para abordar este problema, proponemos MM-Prompt, un nuevo marco que integra la consulta de indicaciones intermodales y la recuperación de indicaciones intermodales. La consulta de indicaciones intermodales de MM-Prompt permite una selección equilibrada de indicaciones al incorporar claves intermodales durante la formación de la consulta, mientras que la recuperación de indicaciones intermodales facilita la reconstrucción conjunta de indicaciones a través de interacciones intermodales iterativas guiadas por la pérdida de alineación para prevenir fluctuaciones de expresividad. Amplios experimentos demuestran que MM-Prompt supera a los enfoques previos en términos de precisión y retención de conocimiento, a la vez que mantiene una participación modal equilibrada durante el aprendizaje continuo.

Takeaways, Limitations

Takeaways:
Se presenta un marco de aprendizaje multimodal equilibrado con preguntas y recuperación intermodales.
Resolver el problema del desequilibrio modal de los métodos existentes y mejorar el rendimiento
Lograr alta precisión y retención de conocimientos en un entorno de aprendizaje continuo.
Limitations:
La eficacia del método propuesto puede depender de PTM y conjuntos de datos específicos. Se requieren experimentos adicionales con diversos PTM y conjuntos de datos.
Se necesitan más investigaciones para determinar la generalización de las estrategias para evitar fluctuaciones de representación a través de la pérdida de alineación.
Se necesita más investigación sobre la evaluación del rendimiento y la escalabilidad en aplicaciones del mundo real.
👍