Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

RL in Name Only? Analyzing the Structural Assumptions in RL post-training for LLMs

Created by
  • Haebom

作者

Soumya Rani Samineni, Durgesh Kalwar, Karthik Valmeekam, Kaya Stechly, Subbarao Kambhampati

概要

この論文は、強化学習ベースの大規模言語モデル(LLM)事後学習、特にDeepSeek R1でGRPOを適用した方法について批判的に検討します。 LLM学習をマルコフ意思決定過程(MDP)でモデル化する際の一般的な構造的仮定(1. MDP状態を行動の連結として定義し、状態をコンテキストウィンドウとし、行動をトークンとみなし、2.状態-行動経路の補償を均等に分配)がMDPを退化させて強化学習/GRPO装置が不要にするという点をこの単純化された仮定は、強化学習ベースのアプローチが結果主導の指導学習と効果的に同等になることを示す包括的な分析を提供します。 GSM8KとCountdownのベンチマークを使用したQwen-2.5基本モデル実験では、ポジティブサンプルとネガティブサンプルの両方を統合した反復マップ学習の微調整は、GRPOベースの学習と比較してパフォーマンスを達成することを示しています。さらに、この構造的仮定は、間接的にRLがより長い中間トークンシーケンスを生成するように誘導し、「RLがより長い事故の兆候を生成する」という記述を強化することを論じる。強化学習はLLMの推論能力を向上させるのに非常に有用な技術であるかもしれませんが、基本的なMDPをモデル化するときの単純化された構造的仮定は、広く使用されているLLM RLフレームワークと解釈に疑問を抱くことを示しています。

Takeaways、Limitations

Takeaways: LLM事後学習における強化学習の効果に関する既存の研究の構造的仮定の批判的レビューを提供します。単純な指導学習微調整でも強化学習ベースの方法と同様の性能を達成できることを実験的に示す。強化学習はLLM推論能力の向上に貢献するかもしれませんが、現在のMDPモデリングスキームの限界を指摘しています。
Limitations:特定のLLMとベンチマークの実験結果のみが提示され、一般化の可能性に関するさらなる研究が必要です。強化学習の他の構造的仮定や設計の分析が不足している。より複雑な推論課題に対する性能比較が必要である。
👍