Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Ley de escala del agente RL: Agente RL con ejecución espontánea de código para la resolución de problemas matemáticos

Created by
  • Haebom

Autor

Xinji Mai, Haotian Xu, Xing W, Weinong Wang, Jian Hu, Yingying Zhang, Wenqiang Zhang

Describir

En este artículo, presentamos una metodología de razonamiento integrado con herramientas de cero disparos (ZeroTIR) que utiliza aprendizaje por refuerzo (AR) para permitir que los modelos de lenguaje a gran escala (LLM) utilicen espontáneamente herramientas externas (ejecución de código Python) y mejoren su capacidad para resolver problemas matemáticos. La clave reside en entrenar al LLM para que genere y ejecute código Python mediante la aplicación de AR con recompensas basadas en resultados, sin ejemplos supervisados de uso de herramientas. Los resultados experimentales muestran que la frecuencia de ejecución espontánea de código, la longitud de la respuesta y la precisión final aumentan positivamente con el aumento de los pasos de entrenamiento de AR, lo que sugiere una relación cuantitativa entre el esfuerzo de entrenamiento y la adquisición de estrategias efectivas de utilización de herramientas. Implementamos un marco robusto utilizando algoritmos y marcos de AR estándar, y demostramos que supera a los métodos existentes.

Takeaways, Limitations

Takeaways:
Demostramos que el aprendizaje basado en resultados mediante recompensas puede enseñar eficazmente a los LLM la capacidad de utilizar herramientas externas de forma autónoma.
Proporcionamos una base para futuras investigaciones al dilucidar la relación cuantitativa entre la fase de entrenamiento y la mejora del rendimiento.
La metodología ZeroTIR propuesta supera los métodos existentes en la solución de problemas matemáticos difíciles.
Apoyamos la investigación de seguimiento haciendo públicos entornos y códigos de investigación reproducibles.
Limitations:
Actualmente limitado a ejecutar código Python, se necesita más investigación sobre su extensibilidad para aprovechar otros tipos de herramientas.
La gama de puntos de referencia para problemas matemáticos utilizados puede ser limitada y se necesitan evaluaciones de desempeño en una variedad más amplia de tipos de problemas.
El costo computacional del entrenamiento RL puede ser significativo y se necesita más investigación para desarrollar métodos de entrenamiento eficientes.
👍