Este artículo propone la Destilación por Fusión de Pensamiento (MoT), un método novedoso para destilar eficientemente las capacidades de inferencia de los modelos de procesos de pensamiento (CoT) de largo alcance mediante el aprovechamiento de múltiples modelos docentes. Para superar las limitaciones de los métodos de destilación convencionales que se basan en un único modelo docente, MoT entrena un modelo de estudiante integrando la guía de múltiples modelos docentes. Este proceso iterativo implica el ajuste fino del modelo de estudiante para cada modelo docente y la fusión de los resultados en el espacio de ponderaciones. Al aplicar MoT al modelo de estudiante Qwen3-14B en un benchmark matemático competitivo utilizando solo un pequeño número de muestras de CoT de alta calidad, el método supera a modelos potentes como DEEPSEEK-R1, QWEN3-30B-A3B, QWEN3-32B y OPENAI-O1. MoT supera la destilación de un solo profesor y los métodos simples de integración multiprofesor, mitigando el sobreajuste y demostrando robustez al cambio de distribución y a modelos docentes de igual calidad. Además, reduce el olvido catastrófico, mejora el razonamiento general más allá del ámbito matemático y cultiva mejores modelos docentes. Estos resultados demuestran que MoT es un método simple y escalable para destilar eficientemente las capacidades de CoT a largo plazo de diversos modelos docentes en modelos de estudiantes pequeños.