Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

CAPO: Towards Enhancing LLM Reasoning through Generative Credit Assignment

Created by
  • Haebom

作者

Guofu Xie, Yunsheng Shi, Hongtao Tian, Ting Yao, Xiao Zhang

概要

本論文では、ルールベースのバイナリフィードバックを活用して大規模言語モデル(LLM)の推論能力を向上させる強化学習方法であるRLVR(Reinforcement Learning with Verifiable Rewards)の限界を克服するため、CAPO(Credit Assignment Policy Optimization)という新しい方法を提案します。 CAPOは別々のモデルを訓練するのではなく、一般的なLLMをGeneral Process Reward Model(LLM-as-GenPRM)として活用して、各段階でトークンレベルの評価を生成し、正確なクレジット割り当てを可能にします。いくつかの数学的ベンチマークと外部ドメインのベンチマークでは、CAPOが既存の方法を超えていることを実験的に証明しました。

Takeaways、Limitations

Takeaways:
CAPOはLLMをGenPRMとして活用し、簡単で効率的なクレジット割り当てを可能にします。
トークンレベルのフィードバックを提供して、モデルが成功と失敗の原因をより正確に把握するのに役立ちます。
さまざまなモデルやベンチマークで既存の方法を上回るパフォーマンスを示します。
正確で堅牢な結果のために投票メカニズムを使用してください。
Limitations:
LLM-as-GenPRMの性能は、基礎となるLLMの能力に依存し得る。
LLM-as-GenPRM生成プロセスのエラーの可能性を完全に排除するのは困難です。
数学的ベンチマーク以外の他のドメインへの一般化の可能性に関するさらなる研究の必要性
オンラインRL環境での適用時間と計算コストの追加検討が必要になる場合があります。
👍