Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Destilación de fusión de pensamientos

Created by
  • Haebom

Autor

Zhanming Shen, Zeyu Qin, Zenan Huang, Hao Chen, Jiaqi Hu, Yihong Zhuang, Guoshan Lu, Gang Chen, Junbo Zhao

Describir

Este artículo propone la Destilación por Fusión de Pensamiento (MoT), un método novedoso para destilar eficientemente las capacidades de inferencia de los modelos de procesos de pensamiento (CoT) de largo alcance mediante el aprovechamiento de múltiples modelos docentes. Para superar las limitaciones de los métodos de destilación convencionales que se basan en un único modelo docente, MoT entrena un modelo de estudiante integrando la guía de múltiples modelos docentes. Este proceso iterativo implica el ajuste fino del modelo de estudiante para cada modelo docente y la fusión de los resultados en el espacio de ponderaciones. Al aplicar MoT al modelo de estudiante Qwen3-14B en un benchmark matemático competitivo utilizando solo un pequeño número de muestras de CoT de alta calidad, el método supera a modelos potentes como DEEPSEEK-R1, QWEN3-30B-A3B, QWEN3-32B y OPENAI-O1. MoT supera la destilación de un solo profesor y los métodos simples de integración multiprofesor, mitigando el sobreajuste y demostrando robustez al cambio de distribución y a modelos docentes de igual calidad. Además, reduce el olvido catastrófico, mejora el razonamiento general más allá del ámbito matemático y cultiva mejores modelos docentes. Estos resultados demuestran que MoT es un método simple y escalable para destilar eficientemente las capacidades de CoT a largo plazo de diversos modelos docentes en modelos de estudiantes pequeños.

Takeaways, Limitations

Takeaways:
Se presenta un método novedoso para destilar de manera eficiente las capacidades de inferencia del modelo CoT aprovechando múltiples modelos de profesores.
Consiga un rendimiento excelente incluso con pequeñas cantidades de datos de alta calidad.
Rendimiento y robustez superiores en comparación con los métodos existentes de destilación de un solo maestro y de integración de múltiples maestros.
Reducción del olvido catastrófico y mejora de las habilidades de razonamiento general.
Sugiriendo la posibilidad de cultivar mejores modelos docentes
Limitations:
Los resultados experimentales presentados en este artículo se limitan principalmente a indicadores matemáticos competitivos. Se requiere mayor investigación para determinar su generalización a otros dominios.
Se necesita investigación de optimización sobre las estrategias de selección y fusión de varios modelos de docentes.
Se necesita un análisis más profundo del costo computacional y la eficiencia de la memoria de MoT.
👍