Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

¿Qué tan lejos estamos de la eficiencia óptima del razonamiento?

Created by
  • Haebom

Autor

Jiaxuan Gao, Shu Yan, Qixin Tan, Lu Yang, Shusheng Xu, Wei Fu, Zhiyu Mei, Kaifeng Lyu, Yi Wu

Describir

Este documento propone el concepto de fronteras de eficiencia de razonamiento para abordar los problemas de ineficiencia causados ​​por el detalle excesivo y la redundancia en el proceso de inferencia de cadena de subprocesos (CoT) de los modelos de razonamiento a gran escala (LRM). Con base en límites superiores empíricos obtenidos a través de varios métodos de ajuste fino y configuraciones de aprendizaje, proponemos la métrica de brecha de eficiencia de razonamiento (REG), que cuantifica cuánto se desvía un LRM ajustado de este límite. Las evaluaciones de referencia matemáticas revelan una brecha de eficiencia significativa entre los métodos existentes. Para reducir esta brecha, proponemos REO-RL, un algoritmo de aprendizaje de refuerzo que minimiza REG al apuntar a un conjunto disperso de presupuestos de tokens. REO-RL aprovecha la integración numérica sobre presupuestos seleccionados estratégicamente para aproximarse al objetivo de eficiencia general con un presupuesto de tokens pequeño. Los resultados experimentales muestran que REO-RL reduce REG en más del 50% para todos los LRM evaluados.

Takeaways, Limitations

Takeaways:
Proponemos REG, una métrica unificada para evaluar la eficiencia de inferencia de LRM, y a través de esto, revelamos claramente las limitaciones de los métodos existentes.
Proponemos REO-RL, un algoritmo de aprendizaje de refuerzo que minimiza REG, y verificamos su efectividad mediante experimentos.
Sugerir nuevas direcciones de investigación para mejorar la eficiencia de inferencia de LRM.
Demostramos la utilidad de la métrica REG para capturar eficazmente el equilibrio entre eficiencia y precisión.
Limitations:
Ajustar el LRM para que se ajuste perfectamente al límite de eficiencia sigue siendo un desafío sin resolver.
Se necesita más investigación para evaluar el rendimiento de generalización del algoritmo REO-RL propuesto y su aplicabilidad a varios tipos de problemas.
👍