Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Optimización de la política de expectativas grupales para el aprendizaje de refuerzo heterogéneo

Created by
  • Haebom

Autor

Han Zhang, Ruibin Zheng, Zexuan Yi, Zhuo Zhang, Hanyang Peng, Hui Wang, Zike Yuan, Cai Ke, Shiwei Chen, Jiacheng Yang, Yangning Li, Xiang Li, Jiangyue Yan, Yaoqi Liu, Liwen Jing, Jiayin Qi, Ruifeng Xu, Binxing Fang, Yue Yu

Describir

Este artículo propone HeteroRL, una arquitectura de aprendizaje por refuerzo asíncrono (RL) para superar las limitaciones de la computación unicéntrica y abordar los desafíos del postentrenamiento de modelos lingüísticos a gran escala (LLM) basados ​​en aprendizaje por refuerzo (RL) en entornos distribuidos heterogéneos, a medida que el aprendizaje distribuido cobra cada vez mayor importancia. HeteroRL desacopla el muestreo de despliegue y el aprendizaje de parámetros, logrando un rendimiento robusto incluso en nodos distribuidos geográficamente que experimentan retrasos en la red. Específicamente, identificamos el problema de la divergencia de KL debido a los retrasos, lo que genera una alta varianza que puede provocar fallos en el muestreo de importancia. Para abordar este problema, proponemos el algoritmo de Optimización de Políticas de Expectativas de Grupo (GEPO), que reduce la varianza de los pesos de importancia mediante un mecanismo de muestreo mejorado. GEPO teóricamente logra una reducción exponencial de la varianza, y los resultados experimentales demuestran que presenta una degradación del rendimiento inferior al 3% incluso con retrasos de 1800 segundos, a la vez que mantiene una estabilidad superior a GRPO. Esto demuestra el gran potencial del RL distribuido en redes heterogéneas.

Takeaways, Limitations

Takeaways:
Se presenta un método eficiente para el post-entrenamiento LLM basado en aprendizaje de refuerzo en entornos distribuidos heterogéneos.
HeteroRL: una arquitectura de aprendizaje automático asíncrono resistente a retrasos de red
Asegure un rendimiento de aprendizaje estable a través del algoritmo GEPO que reduce la variación del peso de importancia.
Verificación de la eficacia de GEPO mediante análisis teórico y resultados experimentales.
Presentamos la viabilidad práctica de la capacitación posterior al LLM basado en RL distribuido.
Limitations:
Se necesita una mayor verificación de la generalización debido a la naturaleza única del entorno experimental.
La evaluación del rendimiento es necesaria en entornos de red más complejos y diversos.
Se necesita más investigación sobre la complejidad computacional y la escalabilidad del algoritmo GEPO.
Es necesario revisar la compatibilidad con varias arquitecturas LLM y algoritmos RL.
👍