Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Integración de múltiples indicaciones adaptativas al contexto con modelos de lenguaje amplios para la alineación entre visión y lenguaje

Created by
  • Haebom

Autor

Dahun Kim, Anelia Angelova

Describir

Este artículo propone la incrustación de múltiples indicaciones adaptativa al contexto, un método novedoso para enriquecer las representaciones semánticas en el aprendizaje contrastivo visual-lingüístico. A diferencia de los modelos de estilo CLIP existentes, que se basan en una única incrustación de texto, este estudio introduce múltiples indicaciones estructuradas, cada una con tokens adaptativos únicos que capturan diferentes aspectos semánticos del texto de entrada. Dentro del marco CLIP, utilizamos un LLM preentrenado como codificador de texto para procesar conjuntamente todas las indicaciones en una sola pasada. Las incrustaciones de indicaciones resultantes se combinan en una representación textual unificada, lo que permite una alineación semántica más rica con las características visuales. Para mejorar aún más la diversidad semántica y la calidad representativa, incorporamos pérdidas por regularización de la diversidad y pérdidas por reconocimiento de negación para fomentar la especialización entre indicaciones y mejorar la discriminación contrastiva. Nuestro método logra mejoras consistentes en el rendimiento en las pruebas de recuperación de imagen a texto y de vídeo a texto.

Takeaways, Limitations

Takeaways:
Demostramos que el aprovechamiento de múltiples estímulos puede mejorar la riqueza de las representaciones semánticas en el aprendizaje contrastivo visual-verbal.
Presentamos un método para utilizar eficazmente LLMs previamente entrenados para capturar diversos aspectos semánticos.
Se logran mejoras de rendimiento a través de la pérdida de regulación de la diversidad y la pérdida de reconocimiento negativo.
Demostramos experimentalmente mejoras en el rendimiento en tareas de recuperación de imagen a texto y de vídeo a texto.
Limitations:
El método propuesto puede ser computacionalmente más costoso que los métodos existentes (procesamiento de múltiples indicaciones).
Puede haber algunas dependencias de LLM específicos.
Es posible que se necesiten más investigaciones para determinar las configuraciones óptimas de hiperparámetros para la pérdida de regularización de diversidad y la pérdida de reconocimiento de negación.
Debido a las limitaciones del punto de referencia utilizado, puede ser necesaria una validación adicional del rendimiento de generalización.
👍