Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

ChatBench: From Static Benchmarks to Human-AI Evaluation

Created by
  • Haebom

作者

Serina Chang、Ashton Anderson、Jake M. Hofman

概要

本論文は、大規模言語モデル(LLM)ベースのチャットボットの急速な拡散によって人間とLLMが一緒に達成できることを評価する必要性が増大するにつれて、既存のMMLUのようなベンチマークがLLMの能力を個別にのみ測定することを指摘します。そこで、研究者はMMLUの質問をユーザー - AI会話に変換するためのユーザー研究を設計して実行し、ユーザーに質問を提示し、LLMとの会話を通じて質問に答える方法を採用しました。 396の質問と2つのLLMのAI単独、ユーザー単独、ユーザー-AIデータを含む新しいデータセット、ChatBenchを公開しました。研究の結果、AI単独の精度はユーザーとAIの精度を予測できず、数学、物理学、道徳的推論など、さまざまな科目に大きな違いがあることを発見し、ユーザーとAIの会話を分析して、AI単独のベンチマークとどのように異なるかについての洞察を提供します。最後に、ChatBenchの一部のデータセットでユーザーシミュレータを微調整すると、ユーザー - AIの精度を推定する能力が向上し、保留に関する質問の相関関係が20%以上増加し、インタラクティブ評価のスケーラビリティが向上します。

Takeaways、Limitations

Takeaways:
既存のAI単独評価方式の限界を明らかにし、人間とAIのコラボレーションを考慮した新しい評価方式の必要性を提示。
ユーザーとAIの相互作用を分析し、AIパフォーマンス評価に関する新しい洞察を提供します。
ChatBenchデータセットの公開による今後の研究の発展可能性の提示
ユーザーシミュレータの微調整によるユーザー - AI相互作用予測精度の向上の可能性を提示します。
Limitations:
ChatBenchデータセットの規模は特定の質問タイプとLLMに限定され、一般化の可能性を確認する必要があります。
ユーザーシミュレータのパフォーマンス向上は特定のデータセットに限定される可能性があり、さまざまな状況とユーザー特性の一般化が必要です。
ユーザー研究の参加者数と多様性の考慮が必要です。
👍