Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

CDE: Curiosity-Driven Exploration for Efficient Reinforcement Learning in Large Language Models

Created by
  • Haebom

作者

Runpeng Dai, Linfeng Song, Haolin Liu, Zhenwen Liang, Dian Yu, Haitao Mi, Zhaopeng Tu, Rui Liu, Tong Zheng, Hongtu Zhu, Dong Yu

概要

本論文は、検証可能な報酬を使用した強化学習(RLVR)における大型言語モデル(LLM)の推論能力を向上させるための探索戦略の改善に焦点を当てています。既存のRLVR法の早期収束とエントロピー崩壊の問題を解決するために、モデルの固有の好奇心を活用した好奇心ベースのナビゲーション(CDE)フレームワークを提案します。アクターの生成応答に対する恥ずかしさと批評家のマルチヘッドアーキテクチャから得られた価値推定値の分散を好奇心信号として使用し、RLVRフレームワーク内のナビゲーションボーナスとして活用します。理論的分析は、アクターベースのボーナスが過誤を処罰し、正解の多様性を促進し、批評ベースのボーナスが既存のRLナビゲーションボーナスに関連付けられていることを示しています。実験の結果、AIMEベンチマークで標準RLVRと比較して約3点の性能向上を達成し、RLVR内の補正崩壊メカニズムを分析してLLMの一般的な故障モードを明らかにしました。

Takeaways、Limitations

Takeaways:
LLMの推論能力を向上させるための効果的な探索戦略である好奇心ベースの探索(CDE)フレームワークの提示
アクターと批評家の好奇心信号を利用した新しいナビゲーションボーナスの設計と理論的分析
AIMEベンチマークにおける既存のRLVRと比較した性能向上を実験的に検証
RLVRのキャリブレーション崩壊機構解析によるLLM故障モードの理解を促進
Limitations:
提示された方法のパフォーマンス向上はAIMEベンチマークに限定されています。他のベンチマークや作業での一般化性能検証が必要
好奇心信号の定義と設定に関するさらなる研究が必要になるかもしれません。
キャリブレーション崩壊メカニズムのより深い分析と解決策の提示が必要
👍