Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Mitigación de la fuga de información entre imágenes en LVLM para tareas multiimagen

Created by
  • Haebom

Autor

Parque Yeji, Minyoung Lee, Sanghyuk Chun, Junsuk Choe

Describir

Este artículo aborda el fenómeno en el que los modelos de visión y lenguaje a gran escala (LVLM) presentan un rendimiento excelente en tareas de una sola imagen, pero se degradan significativamente al procesar entradas multiimagen. Esto se debe a un fenómeno conocido como "fuga de información interimagen", en el que las señales visuales de diferentes imágenes se entrelazan con la salida del modelo. Para abordar este problema, proponemos FOCUS, una estrategia de decodificación sin aprendizaje e independiente de la arquitectura que mitiga la fuga de información interimagen durante la inferencia. FOCUS centra el modelo en una sola imagen limpia enmascarando las imágenes restantes con ruido aleatorio, excluyendo una imagen a la vez. Este proceso se repite para todas las imágenes objetivo, generando logits a partir del contexto parcialmente enmascarado. Estos logits se agregan y se refinan contrastivamente utilizando una entrada de referencia que contiene solo ruido, suprimiendo así la fuga de información y generando una salida más precisa. FOCUS mejora consistentemente el rendimiento en cuatro pruebas de referencia multiimagen y un conjunto diverso de LVLM, lo que demuestra que representa una solución general y práctica para mejorar la inferencia multiimagen sin necesidad de entrenamiento adicional ni modificaciones de la arquitectura.

Takeaways, Limitations

Takeaways:
Presentamos una nueva estrategia de decodificación (FOCUS) para mejorar el rendimiento del procesamiento de múltiples imágenes que no requiere aprendizaje y es independiente de la arquitectura.
Se demostraron mejoras de rendimiento consistentes en varios puntos de referencia LVLM y de múltiples imágenes.
Se presenta una solución práctica para resolver problemas de inferencia de múltiples imágenes sin entrenamiento adicional ni modificación del modelo.
Limitations:
La eficacia de la estrategia FOCUS propuesta podría limitarse a puntos de referencia específicos y LVLM. Se requiere más investigación para determinar su generalización a otros tipos de tareas o modelos multiimagen.
Limitaciones del enmascaramiento de ruido aleatorio. El rendimiento puede mejorarse mediante estrategias de enmascaramiento más sofisticadas.
Posible aumento de la complejidad computacional. Dado que el proceso de enmascaramiento se repite secuencialmente para cada imagen, los costos computacionales pueden aumentar en comparación con el procesamiento de una sola imagen.
👍