Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

ETTRL: Balancing Exploration and Exploitation in LLM Test-Time Reinforcement Learning Via Entropy Mechanism

Created by
  • Haebom

作者

Jia Liu, ChangYi He, YingQiao Lin, MingMin Yang, FeiYang Shen, ShaoGuo Liu

概要

この論文では、大規模言語モデル(LLM)の複雑な推論能力を向上させるためにテスト時間強化学習(TTRL)を活用する方法を紹介します。既存のTTRLの高い推論コストと過信問題を解決するために、エントロピーベースのメカニズムを導入して探索 - 活用バランスを改善する2つの戦略、すなわちエントロピー分岐ツリー多重ロールアウト(ETMR)とエントロピーベースの利点再構成(EAR)を提案します。 Llama3.1-8Bモデルに適用した結果、AIME 2024ベンチマークでPass at 1指標を68%向上させ、ロールアウトトークン予算は60%しか使用できません。これは、推論効率、多様性、推定堅牢性のバランスを効果的に最適化する方法であることを示しています。

Takeaways、Limitations

Takeaways:
TTRLの効率と性能を改善する新しいエントロピーベースの機構を提示
AIME 2024 ベンチマークで大幅なパフォーマンス向上を達成 (Pass at 1 指標 68% 向上)。
推論コストの削減(ロールアウトトークン予算の60%削減)。
エントロピーベースの戦略による探索 - 活用バランスの改善と過新問題の緩和
オープンドメイン推論作業のための非指導強化学習の発展に貢献
Limitations:
提案された方法の一般化性能に対する追加実験の必要性
他のLLMとベンチマークの適用性検証が必要です。
エントロピーベースのメカニズムの最適パラメータ設定に関する研究が必要です。
AIME 2024ベンチマークに特化したパフォーマンス向上の可能性。他のベンチマークでも同じ効果を示すか検証が必要。
👍