[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Cuando la visión prevalece sobre el conocimiento: desenredando los conflictos de conocimiento en los modelos visión-lenguaje

Created by
  • Haebom

Autor

Francesco Ortu, Zhijing Jin, Diego Doimo, Alberto Cazzaniga

Describir

Este artículo aborda el fenómeno en el que los modelos de lenguaje visual (VLM) encuentran conflictos de conocimiento entre el conocimiento interno de parámetros y la información externa al realizar tareas complejas utilizando múltiples fuentes de conocimiento. Dichos conflictos pueden conducir a alucinaciones y respuestas poco fiables, pero sus mecanismos de funcionamiento aún se desconocen. En este artículo, presentamos un conjunto de datos de consultas contrafácticas multimodales que contradice intencionalmente el conocimiento interno de sentido común y analizamos el mecanismo por el cual los VLM resuelven conflictos intermodales. Mediante inspección logit, identificamos un pequeño número de cabezas que controlan conflictos y demostramos que estas cabezas pueden modificarse para inducir al modelo a producir resultados basados en conocimiento interno o entrada visual. Finalmente, demostramos que la atención de estas cabezas identifica con precisión las regiones locales que causan anulaciones visuales y que es más precisa que la atribución basada en gradientes.

Takeaways, Limitations

Takeaways:
Proporciona nuevos conocimientos sobre el mecanismo de resolución de conflictos de conocimiento de los VLM.
Presentamos un método para identificar cabezas específicas que controlan colisiones utilizando pruebas logit.
Esto demuestra que la salida de un modelo se puede controlar manipulando la cabeza.
El análisis del mecanismo de atención aclara el proceso mediante el cual la información visual influye en la salida del modelo.
Presentamos un método de localización de regiones visuales que es más preciso que las características basadas en gradientes.
Limitations:
Se necesitan más investigaciones para determinar si el método propuesto es aplicable a todos los VLM o a todos los tipos de conflictos de conocimiento.
Se requiere la validación del rendimiento de generalización en conjuntos de datos de consultas semiempíricas multimodales.
Se necesita más análisis sobre la interpretabilidad de la prueba logit y la manipulación de la cabeza.
Se necesita un estudio más profundo para determinar cómo la manipulación de una cabeza específica afecta a otras partes del modelo.
👍