Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Quantification de l'incertitude pour les modèles linguistiques : une suite d'outils de notation de type boîte noire, boîte blanche, juge LLM et ensemble

Created by
  • Haebom

Auteur

Dylan Bouchard, Mohit Singh Chauhan

Contour

Cet article présente un cadre polyvalent et sans ressources pour la détection des hallucinations dans les modèles de langage à grande échelle (MLH). Il exploite diverses techniques de quantification de l'incertitude (QI), notamment la QI en boîte noire, la QI en boîte blanche et la QI en tant que juge, en les convertissant en scores de confiance standardisés au niveau des réponses, compris entre 0 et 1. Une approche d'ensemble ajustable combinant plusieurs scores de confiance individuels est proposée, permettant une optimisation pour des cas d'utilisation spécifiques. La boîte à outils Python UQLM simplifie la mise en œuvre, et des expérimentations sur plusieurs benchmarks de questions-réponses LLM démontrent que l'approche d'ensemble surpasse à la fois les composants individuels et les méthodes existantes de détection des hallucinations.

Takeaways, Limitations

Takeaways:
Nous présentons un cadre pratique et polyvalent pour détecter les hallucinations dans les LLM dans des environnements à ressources nulles.
Une approche d’ensemble réglable qui intègre diverses techniques UQ pour permettre une optimisation adaptée à votre cas d’utilisation.
Mise en œuvre et utilisation faciles du framework via la boîte à outils Python UQLM.
Il a été démontré expérimentalement qu'il présente des performances de détection d'hallucinations supérieures à celles des méthodes existantes.
Contribuer à améliorer la fiabilité du LLM dans des domaines à haut risque tels que la médecine et la finance.
Limitations:
Des recherches supplémentaires sont nécessaires sur les performances de généralisation du cadre proposé.
Des expériences plus approfondies sur divers LLM et ensembles de données sont nécessaires.
Le processus d’optimisation pour des cas d’utilisation spécifiques peut être fastidieux pour les utilisateurs.
La boîte à outils UQLM nécessite une maintenance et des mises à jour continues.
👍