Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo. La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro. Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.
Este artículo propone MUSE (Incertidumbre Multi-LLM mediante Conjuntos de Subconjuntos), un método de cuantificación de la incertidumbre que aprovecha la diversidad de modelos para abordar el problema de inconsistencia de los modelos lingüísticos a gran escala (LLM). MUSE utiliza la divergencia de Jensen-Shannon para identificar y agregar subconjuntos de LLM bien calibrados, lo que proporciona estimaciones de incertidumbre más fiables. Se basa en el supuesto de que los LLM proporcionan predicciones complementarias debido a sus diferentes procesos de aprendizaje y a la distribución zipfiana de los lenguajes. Este método demuestra un mejor rendimiento de calibración y predicción en comparación con los modelos de un solo modelo y los modelos simples basados en conjuntos en tareas de predicción binaria. También exploramos cómo MUSE puede utilizarse junto con la destilación de cadenas de pensamiento para ajustar la calibración de los LLM. MUSE está disponible en GitHub.
Takeaways, Limitations
•
Takeaways:
◦
Demostramos que aprovechar la diversidad de modelos de LLM puede mejorar la precisión de la estimación de la incertidumbre.
◦
El método MUSE basado en divergencia de Jensen-Shannon supera a los modelos de modelo único y a los modelos simples basados en conjuntos.
◦
Posibilidad de mejorar la corrección LLM mediante la combinación con la destilación en cadena de pensamiento.
◦
Proporcionar la posibilidad de ampliar la investigación y la utilización a través de la publicación de código abierto del método MUSE desarrollado.
•
Limitations:
◦
Actualmente, solo se presentan resultados experimentales para problemas de clasificación binaria y se necesita más investigación para determinar la generalización a la clasificación de múltiples clases u otros tipos de tareas.
◦
Las mejoras de rendimiento de MUSE pueden estar limitadas a conjuntos de datos y modelos específicos, y es necesario verificar su generalización en una variedad de situaciones.
◦
Hay una falta de análisis de desempeño comparativo que utilice métricas de teoría de la información distintas de la divergencia de Jensen-Shannon.
◦
Se necesita más investigación para optimizar la estrategia de selección de subconjuntos de LLM.