Cet article propose la distillation par fusion de pensées (MoT), un nouveau cadre pour une distillation inférentielle efficace de modèles de processus de pensée (CoT) longs en exploitant divers modèles d'enseignants. Contrairement aux méthodes de distillation conventionnelles qui reposent sur un seul modèle d'enseignant, la MoT intègre les capacités d'inférence de plusieurs modèles d'enseignants pour former un modèle d'élève. Étant donné que le modèle d'enseignant optimal varie selon les modèles d'élèves et les ensembles de données, nous proposons un cadre léger qui ajuste de manière itérative les conseils de chaque enseignant et fusionne l'espace de pondération des variantes de modèles d'élèves résultantes. En appliquant la MoT au modèle d'élève Qwen3-14B en utilisant seulement environ 200 échantillons de CoT de haute qualité sur un benchmark mathématique compétitif, nous démontrons des améliorations de performances supérieures à celles de modèles puissants tels que DEEPSEEK-R1, QWEN3-30B-A3B, QWEN3-32B et OPENAI-O1. De plus, MoT surpasse la distillation mono-enseignant et la simple intégration multi-enseignants, atténuant le surapprentissage et démontrant une robustesse face aux changements de distribution et à des enseignants de compétences équivalentes. De plus, MoT démontre son efficacité pour réduire les oublis catastrophiques, améliorer les compétences générales de raisonnement au-delà des mathématiques et même former de meilleurs enseignants. Ces résultats démontrent que MoT est une méthode simple et évolutive pour distiller efficacement les compétences CoT de forme longue de divers enseignants dans des modèles d'élèves plus petits.