大規模言語モデル(LLM)の数学的推論は、長い生成時間のためにかなりの計算リソースと時間が必要です。従来の効率的な推論方法は言語作業において優れた性能を維持しますが、数学的性能を著しく低下させることがよくあります。本論文では、効率的な推論方法を適用して失われた数学的能力を回復するための資源効率的な蒸留方法であるCapreseを提案し、特にフィードフォワードブロックに焦点を当てる。既存の重みを変更せずに、約1%の追加パラメータと20,000の合成訓練サンプルのみを使用して、効率的な推論で失われた数学的能力を大幅に回復します。さらに、Capreseはアクティブパラメータの数を減らし(Gemma 2 9BおよびLlama 3.1 8Bの場合は約20億を減らす)、既存のモデルレイヤーにきちんと統合されて応答の簡潔さを奨励し(最大8.5%のトークンを減らす)、遅延時間を減らす(次のトークンまでの時間を16%以上減らす)。