Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Descubriendo las identificaciones de base: cómo las señales externas dan forma a la vinculación multimodal

Created by
  • Haebom

Autor

Hosein Hasani, Amirmohammad Izadi, Fatemeh Askari, Mobin Bagherian, Sadegh Mohammadian, Mohammad Izadi, Mahdieh Soleymani Baghshah

Describir

Los modelos de lenguaje visual a gran escala (LVLM) demuestran un rendimiento potente en pruebas multimodales, pero presentan limitaciones en la inferencia estructural y la precisión de la conexión a tierra. Este estudio investiga el fenómeno de que la adición de estructuras visuales simples (p. ej., segmentación, anotación, etc.) mejora la precisión y propone el concepto de "identificadores de conexión a tierra", identificadores latentes inducidos por señales externas. Los identificadores de conexión a tierra vinculan entidades a segmentos específicos en diferentes modalidades. El análisis de la representación revela que estos identificadores exhiben una sólida alineación intrasegmento en el espacio de incrustación, lo que reduce la brecha modal entre imágenes y texto. La intervención causal confirma que estos identificadores median la asociación entre objetos y señales simbólicas. Los identificadores de conexión a tierra mejoran la conexión a tierra intermodal y reducen las alucinaciones al aumentar la atención entre los componentes relevantes. Nuestros hallazgos revelan que los identificadores de conexión a tierra son un mecanismo simbólico clave mediante el cual las señales externas mejoran la vinculación multimodal, ofreciendo mejoras tanto en la interpretabilidad como en la robustez.

Takeaways, Limitations

Takeaways:
Las identificaciones de conexión a tierra proporcionan un mecanismo central para explicar el acoplamiento multimodal mejorado a través de señales externas.
Los identificadores de conexión a tierra reducen la brecha de modalidad al inducir una alineación dentro de la partición en el espacio de incrustación.
Las identificaciones de conexión a tierra mejoran el mecanismo de atención para mejorar la conexión a tierra intermodal y reducir las alucinaciones.
Proporciona una mejor interpretabilidad y solidez práctica.
Limitations:
El Limitations específico no se menciona explícitamente en el documento.
👍