Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

ETTRL: Equilibrio entre exploración y explotación en el aprendizaje por refuerzo en tiempo de prueba LLM mediante el mecanismo de entropía

Created by
  • Haebom

Autor

Jia Liu, ChangYi He, YingQiao Lin, MingMin Yang, FeiYang Shen, ShaoGuo Liu

Describir

Este artículo presenta un método que utiliza el Aprendizaje por Refuerzo en Tiempo de Prueba (TTRL) para mejorar la capacidad de inferencia compleja de los modelos de lenguaje a gran escala (LLM). Para abordar el alto coste de inferencia y los problemas de exceso de confianza del TTRL actual, proponemos dos estrategias: Despliegue Mayoritario de Árbol de Ramas de Entropía (ETMR) y Reconfiguración de Ventaja Basada en Entropía (EAR), que mejoran el equilibrio entre exploración y explotación mediante la introducción de mecanismos basados ​​en la entropía. Aplicando esta estrategia al modelo Llama3.1-8B, demostramos un enfoque eficiente que mejora la métrica "Pase a 1" en un 68% en el benchmark AIME 2024, utilizando solo el 60% del presupuesto de tokens de despliegue. Esto demuestra que el TTRL optimiza eficazmente el equilibrio entre la eficiencia de inferencia, la diversidad y la robustez de la estimación.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo mecanismo basado en la entropía para mejorar la eficiencia y el rendimiento de TTRL.
Mejoras significativas en el rendimiento en el benchmark AIME 2024 (mejora del 68 % en Aprobado en 1 métrica).
Costos de inferencia reducidos (reducción del 60% en el presupuesto de tokens de implementación).
Las estrategias basadas en la entropía mejoran el equilibrio entre exploración y explotación y mitigan los problemas de exceso de confianza.
Contribuyó al avance del aprendizaje de refuerzo no supervisado para tareas de inferencia de dominio abierto.
Limitations:
Se necesitan más experimentos para evaluar el rendimiento de generalización del método propuesto.
Es necesario verificar la aplicabilidad a otros LLM y puntos de referencia.
Se necesita investigación sobre la configuración óptima de parámetros para los mecanismos basados ​​en la entropía.
Esta mejora del rendimiento puede ser específica del benchmark AIME 2024. Es necesario verificar si se observa el mismo efecto en otros benchmarks.
👍