Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Simple pero efectivo: un enfoque basado en la teoría de la información para la cuantificación de la incertidumbre de múltiples LLM

Created by
  • Haebom

Autor

Maya Kruse, Majid Afshar, Saksham Khatwani, Anoop Mayampurath, Guanhua Chen, Yanjun Gao

Describir

Este artículo propone MUSE (Incertidumbre Multi-LLM mediante Conjuntos de Subconjuntos), un método de cuantificación de la incertidumbre que aprovecha la diversidad de modelos para abordar el problema de inconsistencia de los modelos lingüísticos a gran escala (LLM). MUSE utiliza la divergencia de Jensen-Shannon para identificar y agregar subconjuntos de LLM bien calibrados, lo que proporciona estimaciones de incertidumbre más fiables. Se basa en el supuesto de que los LLM proporcionan predicciones complementarias debido a sus diferentes procesos de aprendizaje y a la distribución zipfiana de los lenguajes. Este método demuestra un mejor rendimiento de calibración y predicción en comparación con los modelos de un solo modelo y los modelos simples basados ​​en conjuntos en tareas de predicción binaria. También exploramos cómo MUSE puede utilizarse junto con la destilación de cadenas de pensamiento para ajustar la calibración de los LLM. MUSE está disponible en GitHub.

Takeaways, Limitations

Takeaways:
Demostramos que aprovechar la diversidad de modelos de LLM puede mejorar la precisión de la estimación de la incertidumbre.
El método MUSE basado en divergencia de Jensen-Shannon supera a los modelos de modelo único y a los modelos simples basados ​​en conjuntos.
Posibilidad de mejorar la corrección LLM mediante la combinación con la destilación en cadena de pensamiento.
Proporcionar la posibilidad de ampliar la investigación y la utilización a través de la publicación de código abierto del método MUSE desarrollado.
Limitations:
Actualmente, solo se presentan resultados experimentales para problemas de clasificación binaria y se necesita más investigación para determinar la generalización a la clasificación de múltiples clases u otros tipos de tareas.
Las mejoras de rendimiento de MUSE pueden estar limitadas a conjuntos de datos y modelos específicos, y es necesario verificar su generalización en una variedad de situaciones.
Hay una falta de análisis de desempeño comparativo que utilice métricas de teoría de la información distintas de la divergencia de Jensen-Shannon.
Se necesita más investigación para optimizar la estrategia de selección de subconjuntos de LLM.
👍