Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Answer Matching Outperforms Multiple Choice for Language Model Evaluation

Created by
  • Haebom

作者

Nikhil Chandak、Shashwat Goel、Ameya Prabhu、Moritz Hardt、Jonas Geiping

概要

本論文は、多選択型評価の限界を指摘し、生成型評価方式である「回答マッチング」を提案します。マルチセレクティブ評価は客観的で自動化が容易ですが、質問を見なくても正解を推論できる欠点があります。一方、回答マッチングは、モデルが自由形式で回答を生成し、参照回答と一致するかどうかを最新の言語モデルで判断する方法です。 MMLU-ProとGPQA-Diamondデータセットを用いて人間評価と各評価方式の一致度を測定した結果、小規模モデルを使用しても回答マッチングは人間間の一致度に近い高い精度を示した。一方、マルチセレクティブ評価と参照回答なしでLLMを使用した評価は、人間の評価との一致が低かった。回答マッチングによる評価の改善は単なる概念的な問題ではなく、複数のモデルのランキングが回答マッチングで自由形式のレスポンスを評価するときにかなり異なります。そこで、論文は、多選択性評価から回答マッチングに評価エコシステムを切り替える方法を議論する。

Takeaways、Limitations

Takeaways:
複数選択型評価の限界を明確に提示し、生成型評価方式である回答マッチングの卓越性を実験的に証明。
回答マッチングにより、より正確で信頼できる言語モデルの評価が可能になります。
既存のマルチ選択型評価方式の問題点を解決し、言語モデル評価のパラダイム遷移を提示。
小規模言語モデルを使用しても、回答マッチングの精度が高いことを示しています。
Limitations:
回答マッチング方式の計算コストは​​、マルチ選択評価よりも高くなる可能性があります。
参照回答の質と量によっては、評価結果の精度が影響を受ける可能性があります。
回答マッチングに使用される言語モデルのパフォーマンスによって評価結果が異なる場合があります。
回答マッチング方式がすべてのタイプの質問に適用可能であるかどうかは追加の研究が必要です。
👍