Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

A través de la lupa: ampliación de la percepción adaptativa para la decodificación VLM sin alucinaciones

Created by
  • Haebom

Autor

Shunqi Mao, Chaoyi Zhang, Weidong Cai

Describir

Los modelos de visión-lenguaje (VLM) existentes sufren alucinación visual, un fenómeno en el que las respuestas generadas contienen imprecisiones no relacionadas con la información visual. Los intentos de abordar este problema sin ajustar el modelo mitigan principalmente la alucinación reduciendo los sesgos lingüísticos en contraste o amplificando la ponderación de las incrustaciones visuales durante la decodificación. Sin embargo, estos enfoques tienen una capacidad limitada para capturar detalles visuales sutiles. En este estudio, proponemos Perception Magnifier (PM), un novedoso método de decodificación visual que aísla iterativamente los elementos visuales relevantes y magnifica estas regiones según los mecanismos de atención, guiando así al modelo para que se centre en los detalles visuales sutiles durante la decodificación. PM mejora el escrutinio del VLM de las entradas visuales magnificando regiones críticas, a la vez que preserva la información estructural y contextual en cada paso de la decodificación, lo que le permite generar respuestas más precisas y fieles. Amplios resultados experimentales demuestran que PM no solo mitiga la alucinación, sino que también mejora la producción lingüística, manteniendo robustas capacidades de inferencia.

Takeaways, Limitations

Takeaways:
Presentamos un novedoso método de decodificación visual (MP) que alivia eficazmente los problemas de alucinaciones visuales al capturar detalles visuales finos.
Se demostró experimentalmente un rendimiento superior en el alivio de las alucinaciones y una mejor capacidad de generación del lenguaje en comparación con los métodos existentes.
Aumentó con éxito la precisión visual manteniendo al mismo tiempo fuertes capacidades de razonamiento.
Limitations:
La posibilidad de que las mejoras en el rendimiento de PM puedan limitarse a conjuntos de datos o arquitecturas de modelos específicos.
Se necesita más investigación sobre las capacidades de generalización a entornos visuales más complejos y diversos.
Posible aumento de los costes computacionales.
👍