Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Les probabilités des LLM de chat sont mal calibrées, mais prédisent toujours l'exactitude des questions et réponses à choix multiples

Created by
  • Haebom

Auteur

Benjamin Plaut, Nguyen X. Khanh, Tu Trinh

Contour

Cet article analyse 15 modèles linguistiques à grande échelle (MLH) et constate que la probabilité softmax maximale (PSM) des LMH optimisés pour le chat est systématiquement mal calibrée dans les questions-réponses à choix multiples. Cependant, les PSM peuvent néanmoins contenir des informations d'incertitude utiles. Nous émettons l'hypothèse que les réponses incorrectes seront associées à des PSM plus faibles que les réponses correctes, et des tests statistiques rigoureux démontrent que cette hypothèse est vraie pour les modèles performants dans la tâche de questions-réponses de base. Nous constatons également une forte corrélation directionnelle entre la précision des questions-réponses et les prédictions de précision des PSM, mais aucune corrélation entre la précision des questions-réponses et les erreurs de calibrage. Cela suggère que, dans le cadre du paradigme de calibrage actuel, l'amélioration des performances des LMH entraînera probablement une amélioration des prédictions de précision, et non du calibrage. Nous présentons également des résultats expérimentaux démontrant que le rejet sélectif des réponses en fonction de la PSM peut améliorer les performances.

Takeaways, Limitations_

Takeaways:
Nous montrons que même si le MSP du LLM est mal calibré dans les questions-réponses à choix multiples, il peut toujours fournir des informations utiles pour prédire les réponses correctes/incorrectes.
À Mesure que les performances du LLM s’améliorent, les performances de prédiction des réponses correctes s’amélioreront probablement, mais il est peu probable que les performances de correction s’améliorent.
Le MSP peut être utilisé pour améliorer les performances grâce à une stratégie de rejet. Même avec une petite quantité de données d'étiquettes, les performances peuvent être améliorées en définissant des seuils MSP.
Limitations:
L'analyse est limitée à un type spécifique de tâche de questions-réponses.
Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité des stratégies de rejet de réponse basées sur MSP.
Des recherches supplémentaires sont nécessaires sur diverses architectures LLM et méthodes de réglage fin.
👍