[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

SmartThinker: Aprender a comprimir y preservar el razonamiento mediante el control de la longitud paso a paso

Created by
  • Haebom

Autor

Xingyang He, Xiao Ling, Jie Liu

Describir

En este artículo, proponemos un nuevo marco llamado SmartThinker para abordar el excesivo coste computacional en el proceso de inferencia de modelos de inferencia a gran escala (LRM). El esquema actual de penalización de longitud global presenta el problema de condensar excesivamente los pasos de inferencia a los críticos. SmartThinker aborda este problema mediante un marco de aprendizaje en dos etapas que ajusta la longitud de la cadena de inferencia según la importancia de cada paso. En la primera etapa, el modelo se adapta al modo de inferencia acortado mediante muestreo de rechazo y ajuste fino de aprendizaje supervisado (SFT). En la segunda etapa, se aplica la optimización de la política de control de longitud paso a paso (SCPO) para aumentar la longitud de los pasos críticos y reducir la longitud de los pasos menos críticos, mejorando así la eficiencia. SCPO consta de cuatro componentes: un estimador de importancia en línea, una función de recompensa de control de longitud paso a paso, una estimación de la ventaja de generalización paso a paso (S-GAE) y una estrategia de recorte adaptativa a la dificultad. Los resultados experimentales en varios puntos de referencia de inferencia y varios modelos de red troncal muestran que SmartThinker reduce significativamente la inferencia redundante y mantiene un rendimiento similar o mejor en comparación con los métodos existentes.

Takeaways, Limitations

Takeaways:
Presentamos un método novedoso que puede mejorar significativamente la eficiencia de inferencia de LRM.
Demostramos la eficacia de un enfoque ajustado que controla la longitud según la importancia de cada paso de inferencia.
Demostramos experimentalmente que reduce la inferencia redundante manteniendo un rendimiento equivalente o mejor que el de los métodos existentes.
Permitir un control de longitud eficiente a través de componentes SCPO (estimador de importancia en línea, función de recompensa controlada por longitud paso a paso, S-GAE y estrategia de recorte adaptativa a la dificultad).
Limitations:
Las mejoras de rendimiento de SmartThinker pueden estar limitadas a puntos de referencia y modelos de red troncal específicos.
La precisión del estimador de importancia en línea puede afectar el rendimiento general.
Tal vez se necesiten más investigaciones para determinar la precisión de las evaluaciones de importancia paso a paso.
Se necesita una mayor validación del rendimiento de generalización para diferentes tipos de problemas de inferencia.
👍