Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Cuantificación de la incertidumbre para modelos lingüísticos: un conjunto de evaluadores de caja negra, caja blanca, LLM y conjuntos

Created by
  • Haebom

Autor

Dylan Bouchard, Mohit Singh Chauhan

Describir

Este artículo presenta un marco versátil y sin recursos para la detección de alucinaciones en modelos lingüísticos a gran escala (LLM). Aprovecha diversas técnicas de cuantificación de la incertidumbre (CU), como la CU de caja negra, la CU de caja blanca y el LLM como juez, convirtiéndolas en puntuaciones de confianza estandarizadas a nivel de respuesta, que van de 0 a 1. Se propone un enfoque de conjunto ajustable que combina múltiples puntuaciones de confianza individuales, lo que permite la optimización para casos de uso específicos. El kit de herramientas de Python UQLM simplifica la implementación, y los experimentos con varios puntos de referencia de preguntas y respuestas de LLM demuestran que el enfoque de conjunto supera tanto a los componentes individuales como a los métodos existentes de detección de alucinaciones.

Takeaways, Limitations

Takeaways:
Presentamos un marco práctico y versátil para detectar alucinaciones en LLM en entornos de recursos cero.
Un enfoque de conjunto ajustable que integra varias técnicas UQ para permitir una optimización adaptada a su caso de uso.
Fácil implementación y uso del marco a través del kit de herramientas Python UQLM.
Se ha demostrado experimentalmente que muestra un rendimiento de detección de alucinaciones superior en comparación con los métodos existentes.
Contribuir a mejorar la fiabilidad del LLM en campos de alto riesgo como la medicina y las finanzas.
Limitations:
Se necesita más investigación sobre el rendimiento de generalización del marco propuesto.
Se necesitan experimentos más amplios en diversos LLM y conjuntos de datos.
El proceso de optimización para casos de uso específicos puede resultar complicado para los usuarios.
El kit de herramientas UQLM requiere mantenimiento y actualizaciones constantes.
👍