本論文は、強化学習を通じて推論能力を向上させる大規模言語モデル（LLM）の検証問題を扱う。モデル生成応答と参照応答の一貫性の検証は、応答の長さ、多様性、ニュアンスのために困難です。ルールベースの検証器は複雑さに苦しみ、モデルベースの検証器が使用されますが、特殊化された検証器は柔軟性が不足し、一般的なLLM判断器は一貫性がありません。既存の研究はより良いベリファイアを作成することに集中していましたが、さまざまなタイプのベリファイア性能に対する体系的なドメイン間の比較評価が不足しており、検証可能な補償を使用した強化学習（RLVR）の信頼できる開発を制限しています。これを解決するために、この論文は検証者を体系的に評価するためのクロスドメイン包括的なベンチマークであるVerifyBenchを提案します。数学、物理、化学、生物学をカバーする4,000の専門家レベルの質問と、各質問に対する参照回答とさまざまな回答を構成します。多学制専門家チームが行った厳格な注釈プロセスを通じて評価の信頼性を確保する。抽出された回答と完全な応答、短い出力と長い出力の組み合わせ条件下で、特殊化された検証器と一般LLMの性能境界を包括的に比較するための4次元実験フレームワークを設計します。評価の結果、検証機の基本的なトレードオフを明らかにする。特殊化された検証器は高精度を達成するが再現率が不足し、一般モデルはより強力な包括性を示すが精度は不安定である。さらに重要なことは、検証器の入力構造に対する高い感度とドメイン間一般化の固有の制限を発見し、現在の検証器技術のボトルネックに関する重要な洞察を提供することです。

Takeaways、Limitations

•

Takeaways：さまざまなドメインをカバーするVerifyBenchベンチマークを使用して、LLM検証器のパフォーマンスを体系的に比較評価するための基盤を築きました。特殊化された検証器と一般LLM検証器の性能差と限界を明確に明らかにすることで、今後のLLM検証器の開発方向を示した。入力構造とドメイン間の一般化の重要性を強調し、今後の研究の焦点を示した。

•

Limitations： VerifyBenchは4,000の質問で構成されていますが、さらにさまざまな種類の質問と回答を含むベンチマークの包括性を高める必要があります。現在、ベンチマークで使用されている専門家評価の主観性を最小限に抑えるための追加の研究が必要です。ドメイン間の一般化に対する限界を明らかにしたが、これを克服するための具体的な解決策は提示できなかった。

PDFを見る

Made with Slashpage