Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Ley de escala del agente RL: Agente RL con ejecución espontánea de código para la resolución de problemas matemáticos

Created by
  • Haebom

Autor

Xinji Mai, Haotian Xu, Zhong-Zhi Li, Xing W, Weinong Wang, Jian Hu, Yingying Zhang, Wenqiang Zhang

Describir

Este artículo presenta el marco ZeroTIR, que realiza razonamiento integrado con herramientas (TIR) ​​mediante aprendizaje por refuerzo (RL) a partir de recompensas basadas en resultados. ZeroTIR entrena un modelo de lenguaje a gran escala (LLM) preentrenado para generar y ejecutar código Python espontáneamente para problemas matemáticos, sin ejemplos de aprendizaje supervisado de uso de herramientas. Los resultados experimentales muestran una fuerte correlación positiva entre el aumento de los pasos de entrenamiento de RL y la frecuencia de ejecución espontánea de código, la longitud promedio de respuesta y la precisión final de la tarea. Esto demuestra cuantitativamente la relación entre el esfuerzo computacional invertido en el entrenamiento y el surgimiento de estrategias efectivas de razonamiento aumentado con herramientas. También demostramos que ZeroTIR supera significativamente a los modelos de referencia ZeroRL existentes sin herramientas en los puntos de referencia matemáticos. Al proporcionar un marco robusto y puntos de referencia reproducibles, contribuimos a la investigación futura.

Takeaways, Limitations

Takeaways:
Demostramos que el aprendizaje basado en resultados mediante recompensas puede permitir a los LLM utilizar voluntariamente herramientas externas (ejecutar código Python) para mejorar sus habilidades de razonamiento matemático.
Profundizamos nuestra comprensión del proceso de aprendizaje de herramientas al descubrir correlaciones cuantitativas entre los pasos de entrenamiento de RL y la frecuencia de ejecución del código, la longitud de la respuesta y la precisión.
El marco ZeroTIR contribuye a la futura investigación de inferencia basada en herramientas al proporcionar puntos de referencia reproducibles.
Presentamos una nueva metodología para mejorar la eficiencia del aprendizaje en el uso de herramientas.
Limitations:
Actualmente, está limitado a problemas matemáticos y su generalización a otros tipos de problemas requiere más investigación.
El rendimiento puede variar según el tipo y el alcance del punto de referencia utilizado.
Se debe tener en cuenta la estabilidad y seguridad del entorno de ejecución del código.
Puede haber una falta de interpretabilidad para procesos de razonamiento complejos.
👍