Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

MOTIF: Modular Thinking via Reinforcement Fine-tuning in LLMs

Created by
  • Haebom

作者

Purbesh Mitra、Sennur Ulukus

概要

本論文では、大規模言語モデル(LLM)の推論能力を向上させるための新しい強化学習方法であるMOTIF(Modular Thinking via Reinforcement Finetuning)を提案します。従来のGRPO(Group Relative Policy Optimization)アルゴリズムは、推論トークンの数を増やすことで応答品質を向上させますが、LLMの限られたコンテキストサイズによって制約があります。 MOTIFは、複数のラウンドにわたって推論トークンを生成するモジュラー思考戦略を通じて、コンテキストサイズの制限を克服したいと考えています。 Qwen2.5-3B-InstructモデルをGSM8Kデータセットでパラメータ効率的な微調整で学習した結果、MATH500およびAIME2024ベンチマークで、従来のGRPOベースの学習に比べてそれぞれ3.8%と3.3%の精度向上を見せ、これは15%のサンプルのみを使用して達成した。コードとモデルは公開されています。

Takeaways、Limitations

Takeaways:
LLMのコンテキストサイズ制限を克服する効果的なモジュラー思考戦略を提示します。
GRPOベースの学習と比較して改善された精度とサンプル効率を示します。
公開されたコードとモデルを通じて再現性と拡張性を提供します。
Limitations:
特定のデータセット(GSM8K、MATH500、AIME2024)のパフォーマンス評価のみが行われたため、一般化の可能性についてさらに検討する必要があります。
モジュラー思考戦略の効率性と適用性のより深い分析が必要です。
さまざまなLLMアーキテクチャとサイズのパフォーマンス比較分析が不足しています。
👍