Cet article souligne le besoin croissant d'évaluer les performances conjointes des humains et des LLM, stimulé par la prolifération rapide des modèles linguistiques à grande échelle (LLM). Cependant, les benchmarks existants, tels que MMLU, ne mesurent les capacités des LLM qu'individuellement. Par conséquent, nous avons conçu et mené une étude utilisateur qui a transformé les questions MMLU en conversations utilisateur-IA, en présentant des questions aux utilisateurs et en leur demandant d'y répondre via des conversations avec les LLM. Nous avons publié ChatBench, un nouvel ensemble de données contenant des données IA seule, utilisateur seule et utilisateur-IA pour 396 questions et deux LLM, comprenant 144 000 réponses et 7 336 conversations utilisateur-IA. Nos résultats démontrent que la précision de l'IA seule ne prédit pas la précision de l'IA utilisateur, et qu'il existe des différences significatives entre des matières telles que les mathématiques, la physique et le raisonnement moral. L'analyse des conversations utilisateur-IA nous permet de comprendre en quoi ces conversations diffèrent des benchmarks IA seule. Enfin, le réglage fin du simulateur utilisateur avec un sous-ensemble de l'ensemble de données ChatBench améliore notre capacité à estimer la précision de l'IA utilisateur, augmentant la corrélation pour les questions retenues de plus de 20 %, suggérant le potentiel d'une évaluation conversationnelle évolutive.