Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Thinkless: LLM Learns When to Think

Created by
  • Haebom

作者

Gongfan Fang, Xinyin Ma, Xinchao Wang

概要

この論文では、複雑な推論を必要とする作業で優れたパフォーマンスを示すReasoning Language Model(RLM)の計算効率の問題を解決するために、モデルは単純な問題には簡潔な答えを、複雑な問題には長文の推論を選択的に使用するThinklessフレームワークを提案します。 Thinklessは強化学習に基づいて学習され、簡潔な応答と詳細な推論のために2つの制御トークンを使用します。コアアルゴリズムであるDeGRPO(Decoupled Group Relative Policy Optimization)は、制御トークン損失と応答損失を分離し、学習を安定させ、パフォーマンスを向上させます。実験の結果、Minerva Algebra、MATH-500、GSM8Kなどのベンチマークで長文推論使用量を50%〜90%減少させる効率性が向上しました。

Takeaways、Limitations

Takeaways:
RLMの計算効率を大幅に向上させるための新しいフレームワークの提示。
過剰な長文推論の使用を減らし、応答速度とリソース消費を減らします。
強化学習とデカップリング最適化による安定した学習とパフォーマンスの向上
様々な数学と推論問題のベンチマークにおける効果の検証
Limitations:
提案されたフレームワークの一般化性能に関するさらなる研究が必要です。
さまざまな種類の問題に対する適用性と性能評価の必要性
DeGRPOアルゴリズムの複雑さと計算コストの分析の必要性
特定のベンチマークに対する過適合性の可能性。
👍