Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

BudgetThinker: Potenciando el razonamiento presupuestario con tokens de control en LLM

Created by
  • Haebom

Autor

Hao Wen, Xinrui Wu, Yi Sun, Feifei Zhang, Liye Chen, Jie Wang, Yunxin Liu, Yunhao Liu, Ya-Qin Zhang, Yuanchun Li

Describir

Este artículo propone BudgetThinker, un novedoso marco de trabajo para controlar con precisión la longitud de inferencia de un Modelo de Lenguaje Grande (LLM), lo que permite una inferencia eficiente incluso en entornos con recursos limitados y en tiempo real. BudgetThinker inserta periódicamente tokens de control especiales durante la inferencia para informar continuamente al modelo sobre el presupuesto de tokens restante. Esto se combina con un proceso de entrenamiento de dos etapas: ajuste fino supervisado (SFT) y aprendizaje de refuerzo basado en el currículo (RL) mediante una función de recompensa que tiene en cuenta la longitud. Los resultados experimentales demuestran que BudgetThinker supera a los métodos existentes en el mantenimiento del rendimiento en parámetros matemáticos exigentes con diversos presupuestos de inferencia.

Takeaways, Limitations

Takeaways:
Controlar eficazmente la longitud del proceso de inferencia de LLM permite una inferencia de alto rendimiento incluso en entornos con recursos limitados.
Aumenta la aplicabilidad de LLM a aplicaciones en tiempo real.
Optimice simultáneamente la precisión y el cumplimiento del presupuesto con un flujo de trabajo de capacitación basado en SFT y RL.
Rendimiento consistente en una variedad de presupuestos de inferencia.
Limitations:
Se requiere mayor investigación para determinar el rendimiento de generalización del método propuesto. (Cabe destacar que solo se presenta el rendimiento en parámetros matemáticos específicos; se requiere mayor validación para determinar el rendimiento en otros tipos de problemas).
Se necesita más investigación sobre la optimización y generalización de métodos de inserción de tokens de control especiales.
Tal vez falten explicaciones detalladas del diseño y el ajuste de parámetros del aprendizaje de refuerzo basado en el currículo.
👍