Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Revelando la respuesta de los grandes modelos de visión y lenguaje a los elementos visualmente ausentes

Created by
  • Haebom

Autor

Sohee Kim, Soohyun Ryu, Joonhyung Park, Eunho Yang

Describir

Este artículo revela un fenómeno en el que los modelos de visión-lenguaje a gran escala (LVLM) perciben erróneamente entradas de texto sin evidencia visual como parte de una imagen, lo que genera errores. Al investigar la capacidad de los LVLM para determinar si los conceptos textuales están arraigados en una imagen, descubrimos las neuronas de conciencia de ausencia visual (VA), un subconjunto específico de neuronas de red de propagación hacia adelante (FFN) que señalan la ausencia visual con un patrón de activación único. Aprovechando este patrón, desarrollamos un módulo de detección que clasifica los tokens de entrada como visualmente arraigados. Con base en esta predicción, proponemos un método para mejorar el resultado reinterpretando la pregunta o reemplazando los tokens ausentes detectados durante la generación. Experimentos exhaustivos demuestran que el método propuesto mitiga eficazmente la tendencia del modelo a realizar suposiciones incorrectas sobre la presencia visual y es generalizable a una variedad de LVLM.

Takeaways, Limitations

Takeaways:
Proporciona nuevos conocimientos sobre el procesamiento de la información visual de los LVLM.
Presentamos un método novedoso para detectar la entrada de texto sin evidencia visual y mejorar la salida.
Presentamos una metodología general aplicable a varios LVLM.
Limitations:
Se necesitan más estudios para determinar si los patrones de actividad de las neuronas VA son los mismos en todos los LVLM.
Se necesita una validación adicional para determinar qué tan bien se generaliza el método propuesto a diferentes tipos de imágenes y entradas de texto.
Se necesita más investigación sobre su rendimiento en casos que requieren razonamiento visual complejo.
👍