[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Evaluación unificada de alucinaciones a nivel de triplete para modelos de visión y lenguaje de gran tamaño

Created by
  • Haebom

Autor

Junjie Wu, Tsz Ting Chung, Kai Chen, Dit-Yan Yeung

Describir

Este artículo aborda el problema de las alucinaciones en modelos de visión-lenguaje a gran escala (LVLM), especialmente el problema de las alucinaciones relacionales. A diferencia de trabajos previos que se centran principalmente en la alucinación de objetos, este artículo presenta un marco unificado que considera objetos y relaciones simultáneamente. Para ello, proponemos un nuevo punto de referencia, Tri-HE, que evalúa las alucinaciones mediante tripletes (objeto, relación, objeto). Los resultados experimentales con Tri-HE muestran que la alucinación relacional es un problema más grave que la alucinación de objetos, y presentamos un enfoque sencillo y sin entrenamiento para mitigarlo. El conjunto de datos y el código están disponibles públicamente.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo punto de referencia, Tri-HE, para evaluar sistemáticamente problemas de alucinaciones relacionales y objetales.
Se ha demostrado experimentalmente que las alucinaciones relacionales son un problema más grave que las alucinaciones objetales.
Sugerimos un método eficaz, sin entrenamiento, para aliviar los problemas de alucinaciones en las relaciones.
Sugerir direcciones de investigación importantes para mejorar la confiabilidad de LVLM.
Limitations:
El rango de mejora del rendimiento del método sin entrenamiento propuesto puede ser limitado.
Es posible que el parámetro de referencia Tri-HE no cubra exhaustivamente todos los tipos de alucinaciones relacionales.
Las relaciones visuales más complejas y variadas pueden requerir una evaluación más profunda de las alucinaciones.
👍