Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Scalable LLM Math Reasoning Acceleration with Low-rank Distillation

Created by
  • Haebom

作者

Harry Dong, Bilge Acun, Beidi Chen, Yuejie Chi

概要

大規模言語モデル(LLM)の数学的推論は、長い生成時間のためにかなりの計算リソースと時間が必要です。従来の効率的な推論方法は言語作業において優れた性能を維持しますが、数学的性能を著しく低下させることがよくあります。本論文では、効率的な推論方法を適用して失われた数学的能力を回復するための資源効率的な蒸留方法であるCapreseを提案し、特にフィードフォワードブロックに焦点を当てる。既存の重みを変更せずに、約1%の追加パラメータと20,000の合成訓練サンプルのみを使用して、効率的な推論で失われた数学的能力を大幅に回復します。さらに、Capreseはアクティブパラメータの数を減らし(Gemma 2 9BおよびLlama 3.1 8Bの場合は約20億を減らす)、既存のモデルレイヤーにきちんと統合されて応答の簡潔さを奨励し(最大8.5%のトークンを減らす)、遅延時間を減らす(次のトークンまでの時間を16%以上減らす)。

Takeaways、Limitations

Takeaways:
LLMの効率的な推論法適用時に失われる数学的能力を回復するのに有効な資源効率的な蒸留法の提示
既存の重みを変更せずに少数の追加パラメータとトレーニングサンプルでパフォーマンスを回復
アクティブパラメータ数の削減と遅延時間の短縮により効率を向上
応答の簡潔さの奨励
Limitations:
具体的な数学的能力回復の程度に関する追加情報の欠如
他のモデルと作業の一般化性能に関するさらなる研究が必要
Capreseの動作原理の詳細な説明が必要
👍