Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ChatBench : des repères statiques à l'évaluation homme-IA

Created by
  • Haebom

Auteur

Serina Chang, Ashton Anderson, Jake M. Hofman

Contour

Cet article souligne le besoin croissant d'évaluer les performances conjointes des humains et des LLM, stimulé par la prolifération rapide des modèles linguistiques à grande échelle (LLM). Cependant, les benchmarks existants, tels que MMLU, ne mesurent les capacités des LLM qu'individuellement. Par conséquent, nous avons conçu et mené une étude utilisateur qui a transformé les questions MMLU en conversations utilisateur-IA, en présentant des questions aux utilisateurs et en leur demandant d'y répondre via des conversations avec les LLM. Nous avons publié ChatBench, un nouvel ensemble de données contenant des données IA seule, utilisateur seule et utilisateur-IA pour 396 questions et deux LLM, comprenant 144 000 réponses et 7 336 conversations utilisateur-IA. Nos résultats démontrent que la précision de l'IA seule ne prédit pas la précision de l'IA utilisateur, et qu'il existe des différences significatives entre des matières telles que les mathématiques, la physique et le raisonnement moral. L'analyse des conversations utilisateur-IA nous permet de comprendre en quoi ces conversations diffèrent des benchmarks IA seule. Enfin, le réglage fin du simulateur utilisateur avec un sous-ensemble de l'ensemble de données ChatBench améliore notre capacité à estimer la précision de l'IA utilisateur, augmentant la corrélation pour les questions retenues de plus de 20 %, suggérant le potentiel d'une évaluation conversationnelle évolutive.

Takeaways, Limitations

Takeaways:
Il révèle les limites des méthodes d’évaluation existantes basées uniquement sur l’IA et suggère la nécessité d’une nouvelle méthode d’évaluation qui prend en compte la collaboration entre les humains et l’IA.
L’analyse des interactions utilisateur-IA fournit de nouvelles perspectives pour évaluer les performances de l’IA.
Présentation du potentiel d’avancement futur de la recherche grâce à la publication de l’ensemble de données ChatBench.
Suggérant la possibilité d’améliorer la précision des prédictions d’interaction utilisateur-IA en affinant le simulateur utilisateur.
Limitations:
L'ensemble de données ChatBench est limité en taille à des types de questions et LLM spécifiques, ce qui nécessite un examen de la généralisabilité.
Les améliorations de performances dans les simulateurs d’utilisateurs peuvent être limitées à des ensembles de données spécifiques, et une généralisation à un éventail plus large de situations et de caractéristiques d’utilisateurs est nécessaire.
Il convient de prendre en compte le nombre et la diversité des participants à la recherche sur les utilisateurs.
👍