本論文は、大規模言語モデル(LLM)ベースのチャットボットの急速な拡散によって人間とLLMが一緒に達成できることを評価する必要性が増大するにつれて、既存のMMLUのようなベンチマークがLLMの能力を個別にのみ測定することを指摘します。そこで、研究者はMMLUの質問をユーザー - AI会話に変換するためのユーザー研究を設計して実行し、ユーザーに質問を提示し、LLMとの会話を通じて質問に答える方法を採用しました。 396の質問と2つのLLMのAI単独、ユーザー単独、ユーザー-AIデータを含む新しいデータセット、ChatBenchを公開しました。研究の結果、AI単独の精度はユーザーとAIの精度を予測できず、数学、物理学、道徳的推論など、さまざまな科目に大きな違いがあることを発見し、ユーザーとAIの会話を分析して、AI単独のベンチマークとどのように異なるかについての洞察を提供します。最後に、ChatBenchの一部のデータセットでユーザーシミュレータを微調整すると、ユーザー - AIの精度を推定する能力が向上し、保留に関する質問の相関関係が20%以上増加し、インタラクティブ評価のスケーラビリティが向上します。