Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Destilación de fusión de pensamientos

Created by
  • Haebom

Autor

Zhanming Shen, Zeyu Qin, Zenan Huang, Hao Chen, Jiaqi Hu, Yihong Zhuang, Guoshan Lu, Gang Chen, Junbo Zhao

Describir

Este artículo propone la Destilación por Fusión de Pensamiento (MoT), un novedoso marco para la destilación inferencial eficiente de modelos de procesos de pensamiento (CoT) de formato largo mediante el aprovechamiento de diversos modelos de profesor. A diferencia de los métodos de destilación convencionales que se basan en un único modelo de profesor, MoT integra las capacidades de inferencia de múltiples modelos de profesor para entrenar un modelo de estudiante. Considerando que el modelo de profesor óptimo varía según los modelos de estudiante y los conjuntos de datos, proponemos un marco ligero que afina iterativamente la guía de cada profesor y fusiona el espacio de ponderación de las variantes resultantes del modelo de estudiante. Al aplicar MoT al modelo de estudiante Qwen3-14B utilizando solo aproximadamente 200 muestras de CoT de alta calidad en un benchmark matemático competitivo, demostramos mejoras de rendimiento que superan a modelos potentes como DEEPSEEK-R1, QWEN3-30B-A3B, QWEN3-32B y OPENAI-O1. Además, MoT supera la destilación de un solo profesor y la integración simple de múltiples profesores, mitigando el sobreajuste y demostrando robustez ante cambios en la distribución y profesores con la misma cualificación. Además, MoT demuestra su eficacia para reducir el olvido catastrófico, mejorar las habilidades de razonamiento general más allá de las matemáticas e incluso fomentar la mejora de los profesores. Estos resultados demuestran que MoT es un método simple y escalable para destilar eficientemente las habilidades de CoT de formato largo de diversos profesores en modelos de estudiantes más pequeños.

Takeaways, Limitations

Takeaways:
Presentamos un método novedoso para destilar de manera eficiente la capacidad de inferencia de modelos CoT largos utilizando varios modelos de profesores.
Conseguir importantes mejoras de rendimiento incluso con datos limitados de alta calidad.
Rendimiento y robustez superiores sobre la destilación de un solo maestro y los métodos simples de agregación de múltiples maestros.
Reducir el olvido catastrófico y mejorar las habilidades generales de razonamiento.
Presentando la posibilidad de fomentar mejores modelos docentes.
Un marco simple y extensible.
Limitations:
Dado que este documento se centra principalmente en los puntos de referencia de las matemáticas competitivas, se necesita más investigación sobre el rendimiento de generalización en otros dominios.
Tal vez se necesiten más investigaciones sobre la selección óptima de docentes y estrategias de fusión de espacios ponderados.
Es posible que no exista una explicación clara de la definición y los criterios de selección de las muestras de CoT de alta calidad utilizadas.
👍