Este artículo propone la Destilación por Fusión de Pensamiento (MoT), un novedoso marco para la destilación inferencial eficiente de modelos de procesos de pensamiento (CoT) de formato largo mediante el aprovechamiento de diversos modelos de profesor. A diferencia de los métodos de destilación convencionales que se basan en un único modelo de profesor, MoT integra las capacidades de inferencia de múltiples modelos de profesor para entrenar un modelo de estudiante. Considerando que el modelo de profesor óptimo varía según los modelos de estudiante y los conjuntos de datos, proponemos un marco ligero que afina iterativamente la guía de cada profesor y fusiona el espacio de ponderación de las variantes resultantes del modelo de estudiante. Al aplicar MoT al modelo de estudiante Qwen3-14B utilizando solo aproximadamente 200 muestras de CoT de alta calidad en un benchmark matemático competitivo, demostramos mejoras de rendimiento que superan a modelos potentes como DEEPSEEK-R1, QWEN3-30B-A3B, QWEN3-32B y OPENAI-O1. Además, MoT supera la destilación de un solo profesor y la integración simple de múltiples profesores, mitigando el sobreajuste y demostrando robustez ante cambios en la distribución y profesores con la misma cualificación. Además, MoT demuestra su eficacia para reducir el olvido catastrófico, mejorar las habilidades de razonamiento general más allá de las matemáticas e incluso fomentar la mejora de los profesores. Estos resultados demuestran que MoT es un método simple y escalable para destilar eficientemente las habilidades de CoT de formato largo de diversos profesores en modelos de estudiantes más pequeños.