Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Optimización jerárquica de políticas presupuestarias para razonamiento adaptativo

Created by
  • Haebom

Autor

Shangke Lyu, Linjuan Wu, Yuchen Yan, Xingyu Wu, Hao Li, Yongliang Shen, Peisheng Jiang, Weiming Lu, Jun Xiao, Yueting Zhuang

Describir

Este artículo presenta el marco de Optimización Jerárquica de Políticas de Presupuesto (HBPO) para abordar la ineficiencia de los modelos de inferencia a gran escala, que realizan inferencias excesivas de forma consistente a pesar de las demandas computacionales que varían con la complejidad del problema. A diferencia de los métodos existentes que se basan en restricciones fijas o selección de modo discreto, HBPO divide el espacio de búsqueda en capas con restricciones presupuestarias (512-2560 tokens) con estructuras de recompensa diferenciadas, manteniendo así tanto la eficiencia como el rendimiento de la inferencia. Para abordar el problema de las penalizaciones de longitud convencionales que excluyen las rutas de inferencia redundantes, entrenamos el modelo para que realice inferencia redundante solo cuando sea necesario, manteniendo al mismo tiempo la diversidad de exploración mediante muestreo jerárquico y recompensas que tienen en cuenta el presupuesto. Los resultados experimentales demuestran que HBPO reduce el uso promedio de tokens hasta en un 60,6 % y mejora la precisión en un 3,14 % en cuatro parámetros de inferencia, a la vez que ajusta automáticamente la profundidad de la inferencia de forma adaptativa en función de la complejidad del problema. En conclusión, demostramos que un aprendizaje jerárquico adecuado puede optimizar simultáneamente la eficiencia y el rendimiento de la inferencia.

Takeaways, Limitations

Takeaways:
Presentamos la posibilidad de aprender un modelo de inferencia eficiente que ajusta dinámicamente la profundidad de inferencia según la complejidad del problema.
Superar las limitaciones del método de penalización de longitud simple existente y confirmar la posibilidad de mejorar simultáneamente la eficiencia y la precisión de la inferencia.
Mantener la diversidad de búsqueda y evitar la inferencia excesiva mediante la partición jerárquica del espacio de búsqueda.
Sugiriendo que no existe un equilibrio entre la eficiencia y la capacidad de inferencia.
Limitations:
Se necesitan más investigaciones para optimizar la estructura jerárquica y la configuración presupuestaria de las HBPO.
Es necesario verificar el rendimiento de la generalización para varios tipos de problemas de inferencia.
Dado que estos resultados corresponden a un parámetro de referencia específico, se necesita más investigación para determinar su generalización a otras tareas de inferencia.
Se necesita una revisión más profunda para determinar si el rango de restricción presupuestaria del token 512-2560 es apropiado para todos los problemas.
👍