Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

AgentGym-RL: Formación de agentes LLM para la toma de decisiones a largo plazo mediante aprendizaje de refuerzo multiturno

Created by
  • Haebom

Autor

Zhiheng Xi, Jixuan Huang, Chenyang Liao, Baodai Huang, Honglin Guo, Jiaqi Liu, Rui Zheng, Junjie Ye, Jiazheng Zhang, Wenxiang Chen, Wei He, Yiwen Ding, Guanyu Li, Zehui Chen, Zhengyin Du, Xuesong Yao, Yufei Xu, Jiecao Chen, Tao Gui, Zuxuan Wu, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang

Describir

AgentGym-RL es un novedoso marco de aprendizaje por refuerzo para entrenar agentes LLM autónomos desde cero, capaces de tomar decisiones inteligentes para resolver problemas complejos del mundo real en diversos entornos sin necesidad de ajustes de aprendizaje supervisado. Presenta una arquitectura modular y desacoplada, abarca diversos escenarios del mundo real y es compatible con los principales algoritmos de aprendizaje por refuerzo. Proponemos un método de entrenamiento ScalingInter-RL diseñado para equilibrar la exploración y la explotación, y lograr una optimización robusta del aprendizaje por refuerzo. Inicialmente, nos centramos en la explotación limitando el número de interacciones, y gradualmente pasamos a la exploración con un horizonte más amplio para fomentar diversas estrategias de resolución de problemas. Presentamos resultados experimentales que demuestran que los agentes se entrenan para obtener un rendimiento igual o superior al de los modelos comerciales en 27 tareas en diversos entornos. Planeamos publicar en código abierto todo el marco AgentGym-RL, incluyendo el código y los conjuntos de datos.

Takeaways, Limitations

Takeaways:
Presentamos un marco para entrenar agentes LLM autónomos capaces de resolver problemas complejos del mundo real en diversos entornos sin ajustar el aprendizaje supervisado.
La arquitectura modular proporciona flexibilidad y escalabilidad.
Se propone un método de entrenamiento ScalingInter-RL que considera el equilibrio exploración-explotación para promover la optimización del aprendizaje de refuerzo estable y diversas estrategias de resolución de problemas.
Rendimiento validado equivalente o superior a los modelos comerciales en 27 tareas diferentes
Contribuir al desarrollo de la comunidad de investigación a través del lanzamiento de código abierto del marco AgentGym-RL.
Limitations:
Este documento presenta sólo resultados iniciales y se necesita más investigación sobre la estabilidad y escalabilidad a largo plazo.
Si bien admite varios entornos, el rendimiento de generalización a todos los entornos del mundo real requiere una verificación adicional.
Se necesita más investigación sobre la configuración óptima de los parámetros y la generalización de ScalingInter-RL.
👍