この論文では、複雑な推論を必要とする作業で優れたパフォーマンスを示すReasoning Language Model(RLM)の計算効率の問題を解決するために、モデルは単純な問題には簡潔な答えを、複雑な問題には長文の推論を選択的に使用するThinklessフレームワークを提案します。 Thinklessは強化学習に基づいて学習され、簡潔な応答と詳細な推論のために2つの制御トークンを使用します。コアアルゴリズムであるDeGRPO(Decoupled Group Relative Policy Optimization)は、制御トークン損失と応答損失を分離し、学習を安定させ、パフォーマンスを向上させます。実験の結果、Minerva Algebra、MATH-500、GSM8Kなどのベンチマークで長文推論使用量を50%〜90%減少させる効率性が向上しました。