Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

La correspondance des réponses surpasse le choix multiple pour l'évaluation des modèles de langage

Created by
  • Haebom

Auteur

Nikhil Chandak, Shashwat Goel, Ameya Prabhu, Moritz Hardt, Jonas Geiping

Contour

Cet article souligne les limites de l'évaluation à choix multiples et propose une méthode d'évaluation générative, la « correspondance ». Cette évaluation est objective et facile à automatiser, mais elle présente l'inconvénient de permettre de déduire la bonne réponse sans consulter la question. En revanche, la correspondance des réponses est une méthode dans laquelle le modèle génère des réponses libres et détermine si elles correspondent aux réponses de référence à l'aide du modèle de langage le plus récent. Les résultats de la mesure de la concordance entre l'évaluation humaine et chaque méthode d'évaluation à l'aide des jeux de données MMLU-Pro et GPQA-Diamond montrent que la correspondance des réponses présente une précision élevée, proche de la concordance entre les réponses humaines, même avec un modèle de petite taille. En revanche, l'évaluation à choix multiples et l'évaluation utilisant LLM sans réponses de référence ont montré une faible concordance avec l'évaluation humaine. Améliorer l'évaluation par la correspondance des réponses n'est pas un simple problème conceptuel, et les classements des différents modèles diffèrent significativement lors de l'évaluation des réponses libres par correspondance des réponses. Par conséquent, cet article examine une solution pour transformer l'écosystème d'évaluation de l'évaluation à choix multiples vers la correspondance des réponses.

Takeaways, Limitations

Takeaways:
Présenter clairement les limites de l’évaluation à choix multiples et prouver expérimentalement la supériorité de l’appariement des réponses, une méthode d’évaluation générative.
La correspondance des réponses permet une évaluation plus précise et plus fiable du modèle linguistique.
Résout les problèmes liés aux méthodes d’évaluation à choix multiples existantes et présente un changement de paradigme dans l’évaluation des modèles de langage.
Nous démontrons que la précision de la correspondance des réponses est élevée même lors de l’utilisation de modèles linguistiques à petite échelle.
Limitations:
Le coût de calcul de la correspondance des réponses peut être plus élevé que celui de l’évaluation à choix multiples.
L’exactitude des résultats de l’évaluation peut être affectée par la qualité et la quantité des réponses de référence.
Les résultats de l’évaluation peuvent varier en fonction des performances du modèle linguistique utilisé pour la correspondance des réponses.
Des recherches supplémentaires sont nécessaires pour déterminer si la méthode de correspondance des réponses est applicable à tous les types de questions.
👍