Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Evaluación unificada de alucinaciones a nivel de triplete para modelos de visión y lenguaje de gran tamaño

Created by
  • Haebom

Autor

Junjie Wu, Tsz Ting Chung, Kai Chen, Dit-Yan Yeung

Describir

Este artículo aborda el problema de las alucinaciones en modelos de visión-lenguaje a gran escala (LVLM), especialmente el problema de las alucinaciones relacionales. A diferencia de trabajos previos que se centran principalmente en la alucinación de objetos, este artículo presenta un marco unificado que evalúa simultáneamente objetos y relaciones. Para ello, presentamos Tri-HE, un nuevo parámetro de referencia que mide las alucinaciones mediante tripletes (objeto, relación, objeto). Los resultados experimentales con Tri-HE muestran que la alucinación relacional es un problema más grave que la alucinación de objetos, y proponemos un enfoque sencillo y sin entrenamiento para mitigarlo. El conjunto de datos y el código están disponibles públicamente.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo punto de referencia, Tri-HE, para evaluar y cuantificar sistemáticamente los problemas de alucinaciones relacionales y objetales.
Se ha demostrado experimentalmente que las alucinaciones relacionales son un problema más grave que las alucinaciones objetales en los LVLM existentes.
Se propone un método sencillo, eficaz y sin entrenamiento para aliviar los problemas de alucinaciones en las relaciones.
Sugerir direcciones de investigación importantes para mejorar la confiabilidad de los LVLM.
Limitations:
La mejora del rendimiento del método sin entrenamiento propuesto puede ser limitada.
Es posible que el parámetro de referencia Tri-HE no cubra exhaustivamente todos los tipos de alucinaciones relacionales.
El rendimiento de generalización para varios LVLM requiere una validación adicional.
👍