Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Optimización de políticas de grupo dentro de grupo para la capacitación de agentes LLM

Created by
  • Haebom

Autor

Lang Feng, Zhenghai Xue, Tingcong Liu, Bo An

Describir

Este artículo propone la Optimización de Políticas de Grupo dentro de Grupo (GiGPO), un novedoso algoritmo que aborda los desafíos de escalabilidad del entrenamiento de agentes de modelos de lenguaje (LLM) a largo plazo y a gran escala mediante aprendizaje por refuerzo (RL) basado en grupos. Si bien mantiene las ventajas del RL basado en grupos existente (sin evaluador, bajo consumo de memoria y convergencia estable), logra una asignación de créditos precisa a nivel de etapa mediante una estructura jerárquica que calcula las ventajas relativas tanto a nivel de episodio como de etapa. A nivel de episodio, la ventaja relativa macroscópica se calcula a partir de grupos de trayectorias completadas, mientras que a nivel de etapa, la ventaja relativa microscópica se estima mediante la introducción de un mecanismo de agrupación de estados de anclaje que identifica estados ambientales recurrentes y construye inversamente grupos a nivel de etapa. Las evaluaciones en los benchmarks ALFWorld y WebShop utilizando Qwen2.5-1.5B-Instruct y Qwen2.5-7B-Instruct demuestran mejoras de rendimiento superiores al 12 % en ALFWorld y al 9 % en WebShop, en comparación con las líneas base de GRPO existentes. Este enfoque mantiene la misma sobrecarga de memoria de GPU y la misma implementación de LLM, con poca o ninguna sobrecarga de tiempo adicional.

Takeaways, Limitations

Takeaways:
Presentamos GiGPO, un novedoso algoritmo RL eficiente que aborda el problema de escalabilidad del entrenamiento de agentes LLM a largo plazo.
Permite una asignación de créditos detallada y paso a paso, manteniendo al mismo tiempo las ventajas del RL basado en grupos existente.
Mejora del rendimiento verificada experimentalmente con respecto a los algoritmos existentes en los puntos de referencia ALFWorld y WebShop.
Consiga mejoras de rendimiento sin consumo adicional de memoria o tiempo.
Limitations:
El rendimiento del algoritmo propuesto puede estar limitado a LLM y puntos de referencia específicos.
Se necesita un análisis comparativo más amplio con otros algoritmos RL.
Se necesitan más investigaciones sobre la generalidad del mecanismo de agrupación de estados de anclaje y su aplicabilidad a diversos entornos.
La evaluación del desempeño es necesaria en entornos complejos o en horizontes temporales más largos.
👍