Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Merge-of-Thought Distillation

Created by
  • Haebom

作者

Zhanming Shen, Zeyu Qin, Zenan Huang, Hao Chen, Jiaqi Hu, Yihong Zhuang, Guoshan Lu, Gang Chen, Junbo Zhao

概要

本論文では、複数の教師モデルを活用して長距離思考プロセス(CoT)モデルの推論能力を効率的に蒸留する新しい方法であるMerge-of-Thought Distillation(MoT)を提案します。既存の単一の教師モデルに依存する蒸留方式の限界を克服するために、MoTは複数の教師モデルの地図を統合して学生モデルを学習します。各教師モデルごとに生徒モデルを fine-tuning し、その結果を重み空間でマージする過程を繰り返し行います。競争数学のベンチマークでは、少量の高品質CoTサンプルのみを使用してQwen3-14B学生モデルにMoTを適用した結果、DEEPSEEK-R1、QWEN3-30B-A3B、QWEN3-32B、OPENAI-O1などの強力なモデルを凌駕する性能を示しました。 MoTは、単一の教師の蒸留と単純なマルチ教師の統合方式よりも優れた性能を示し、過適合を軽減し、分布の移動と同等のレベルの教師モデルにも堅牢であることを示しています。さらに、カタストロフィックフォージングを減らし、数学領域を超えて一般的な推論能力を向上させ、より良い教師モデルを培養する効果も見られます。これらの結果は,MoTが,様々な教師モデルから効率的に長距離CoT能力を小型学生モデルに蒸留する簡単で拡張可能な方法であることを示した。

Takeaways、Limitations

Takeaways:
複数の教師モデルを活用して長距離事故過程(CoT)モデルの推論能力を効率的に蒸留する新しい方法の提示
少量の高品質データでも優れた性能を実現
従来のシングル教師蒸留とマルチ教師統合方式より優れた性能と堅牢性を確保
Catastrophic forgettingの低減と一般推論能力の向上
より良い先生モデルの培養可能性を提示
Limitations:
本論文で提示された実験結果は主に競争数学のベンチマークに限定されている。他のドメインへの一般化の可能性に関するさらなる研究が必要
さまざまな教師モデルの選択とマージ戦略の最適化研究が必要
MoTの計算コストとメモリ効率の追加分析が必要
👍