Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Distillation par fusion de pensées

Created by
  • Haebom

Auteur

Zhanming Shen, Zeyu Qin, Zenan Huang, Hao Chen, Jiaqi Hu, Yihong Zhuang, Guoshan Lu, Gang Chen, Junbo Zhao

Contour

Cet article propose la distillation par fusion de pensées (MoT), un nouveau cadre pour une distillation inférentielle efficace de modèles de processus de pensée (CoT) longs en exploitant divers modèles d'enseignants. Contrairement aux méthodes de distillation conventionnelles qui reposent sur un seul modèle d'enseignant, la MoT intègre les capacités d'inférence de plusieurs modèles d'enseignants pour former un modèle d'élève. Étant donné que le modèle d'enseignant optimal varie selon les modèles d'élèves et les ensembles de données, nous proposons un cadre léger qui ajuste de manière itérative les conseils de chaque enseignant et fusionne l'espace de pondération des variantes de modèles d'élèves résultantes. En appliquant la MoT au modèle d'élève Qwen3-14B en utilisant seulement environ 200 échantillons de CoT de haute qualité sur un benchmark mathématique compétitif, nous démontrons des améliorations de performances supérieures à celles de modèles puissants tels que DEEPSEEK-R1, QWEN3-30B-A3B, QWEN3-32B et OPENAI-O1. De plus, MoT surpasse la distillation mono-enseignant et la simple intégration multi-enseignants, atténuant le surapprentissage et démontrant une robustesse face aux changements de distribution et à des enseignants de compétences équivalentes. De plus, MoT démontre son efficacité pour réduire les oublis catastrophiques, améliorer les compétences générales de raisonnement au-delà des mathématiques et même former de meilleurs enseignants. Ces résultats démontrent que MoT est une méthode simple et évolutive pour distiller efficacement les compétences CoT de forme longue de divers enseignants dans des modèles d'élèves plus petits.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle méthode permettant de distiller efficacement la capacité d’inférence des modèles CoT longs en utilisant divers modèles d’enseignants.
Obtenir des gains de performances considérables même avec des données de haute qualité limitées.
Performances et robustesse supérieures par rapport à la distillation à enseignant unique et aux méthodes d'agrégation multi-enseignants simples.
Réduisez les oublis catastrophiques et améliorez les capacités de raisonnement générales.
Présenter la possibilité de favoriser de meilleurs modèles d’enseignants.
Un framework simple et extensible.
Limitations:
ÉTant donné que cet article se concentre principalement sur les critères de référence en mathématiques compétitives, des recherches supplémentaires sont nécessaires sur les performances de généralisation dans d’autres domaines.
Des recherches supplémentaires pourraient être nécessaires sur la sélection optimale des enseignants et sur les stratégies de fusion des espaces pondérés.
Il peut y avoir un manque d’explication claire de la définition et des critères de sélection des échantillons CoT de haute qualité utilisés.
👍