Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Simple mais efficace : une approche théorique de l'information pour la quantification de l'incertitude multi-LLM

Created by
  • Haebom

Auteur

Maya Kruse, Majid Afshar, Saksham Khatwani, Anoop Mayampurath, Guanhua Chen, Yanjun Gao

Contour

Cet article propose MUSE (Multi-LLM Uncertainty via Subset Ensembles), une méthode de quantification de l'incertitude qui exploite la diversité des modèles pour résoudre le problème d'incohérence des modèles de langage à grande échelle (LLM). MUSE utilise la divergence de Jensen-Shannon pour identifier et agréger des sous-ensembles bien calibrés de LLM, fournissant ainsi des estimations d'incertitude plus fiables. Elle repose sur l'hypothèse que les LLM fournissent des prédictions complémentaires en raison de leurs processus d'apprentissage différents et de la distribution zipfienne des langages. Cette méthode démontre des performances d'étalonnage et de prédiction améliorées par rapport aux modèles mono-modèles et aux modèles simples basés sur des ensembles dans les tâches de prédiction binaire. Nous explorons également comment MUSE peut être utilisé en conjonction avec la distillation de la chaîne de pensée pour affiner l'étalonnage des LLM. MUSE est disponible sur GitHub.

Takeaways, Limitations

Takeaways:
Nous démontrons que l’exploitation de la diversité des modèles de LLM peut améliorer la précision de l’estimation de l’incertitude.
La méthode MUSE basée sur la divergence de Jensen-Shannon surpasse les modèles à modèle unique et les modèles simples basés sur des ensembles.
Possibilité d'améliorer la correction LLM grâce à la combinaison avec la distillation de la chaîne de pensée.
Offrir la possibilité d'élargir la recherche et l'utilisation grâce à la publication open source de la méthode MUSE développée.
Limitations:
Actuellement, seuls les résultats expérimentaux pour les problèmes de classification binaire sont présentés, et des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité à la classification multi-classes ou à d'autres types de tâches.
Les améliorations de performances de MUSE peuvent être limitées à des ensembles de données et des modèles spécifiques, et sa généralisabilité dans diverses situations doit être vérifiée.
Il existe un manque d’analyse comparative des performances utilisant des mesures théoriques de l’information autres que la divergence Jensen-Shannon.
Des recherches supplémentaires sont nécessaires pour optimiser la stratégie de sélection des sous-ensembles du LLM.
👍