Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

ThinkTuning: Instilling Cognitive Reflections without Distillation

Created by
  • Haebom

作者

Aswin RRV, Jacob Dineen, Divij Handa, Md Nayem Uddin, Mihir Parmar, Chitta Baral, Ben Zhou

概要

本論文では、強化学習(RL)だけでは思考能力を持つ大規模言語モデル(LLM)を作ることができないという既存の研究結果に基づいて、思考能力が不足しているモデルを学習させる新しい方法であるThinkTuningを提案します。 ThinkTuningは、教師モデルの指導を受ける学生モデルのロールアウトを強化するGRPOベースのインタラクティブな学習アプローチです。教師モデルは問題を提示し、学生モデルの回答に対する修正フィードバックを提供し、それによって学生モデルの推論能力を向上させます。実験の結果、ThinkTuningは、さまざまなベンチマークでゼロショットベースラインに比べて平均3.85%の向上を示し、MATH-500、AIME、GPQA-Diamondではそれぞれ2.08%、2.23%、3.99%向上を示した。ソースコードはFitHubに公開されています。

Takeaways、Limitations

Takeaways:
教師 - 学生モデルの相互作用に基づく相互作用学習方法によるLLMの推論能力の向上の可能性を提示します。
GRPOと教師モデルのフィードバックを組み合わせた効果的な思考能力学習方法を提案
限られた思考能力を持つモデルでも事故能力を向上させることができることを実験的に証明。
さまざまなベンチマークでパフォーマンスの向上を示し、実用的な効果を確認。
Limitations:
教師モデルの質によって学習性能が大きく左右される可能性存在。
提案された方法の効果が特定の種類の問題またはモデルに限定される可能性がある。
より多様で複雑な問題のパフォーマンス評価が必要です。
計算コストと学習時間の考慮が必要です。
👍