Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Echo : Découplage de l'inférence et de l'entraînement pour l'alignement RL à grande échelle sur des essaims hétérogènes

Created by
  • Haebom

Auteur

Jie Xiao, Changyuan Fan, Qingnan Ren, Alfred Long, Yuchen Zhang, Rymon Yu, Eric Yang, Lynn Ai, Shaoduo Gan

Contour

Cet article met en évidence les limites des approches existantes qui effectuent l'inférence et l'optimisation des politiques sur le même cluster GPU lors du post-entraînement de modèles de langage à grande échelle (LLM) basé sur l'apprentissage par renforcement. Cette approche viole l'hypothèse SPMD (programme unique, données multiples) et nuit ainsi à l'efficacité. Par conséquent, nous proposons un système d'apprentissage par renforcement appelé Echo, qui maintient l'efficacité statistique en séparant l'inférence et l'entraînement en essaims hétérogènes d'« inférence » et d'« entraînement ». Echo introduit deux protocoles de synchronisation légers : un mode pull séquentiel, qui met à jour les pondérations des politiques en fonction des appels d'API afin de minimiser les biais, et un mode push-pull asynchrone, qui diffuse les déploiements étiquetés par version via un tampon de relecture afin de maximiser l'utilisation du matériel. L'entraînement de trois tâches d'apprentissage par renforcement représentatives sur des clusters géographiquement distribués à l'aide de Qwen3-4B, Qwen2.5-7B et Qwen3-32B révèle qu'Echo atteint une vitesse de convergence et des performances de récompense finale comparables à celles d'une base de référence Verl entièrement colocalisée, tout en déchargeant les tâches d'inférence sur du matériel périphérique commun. Ces résultats démontrent que l’apprentissage par renforcement LLM à grande échelle peut atteindre des performances de niveau centre de données en utilisant des ressources distribuées et hétérogènes.

Takeaways, Limitations

Takeaways:
Dans l’apprentissage par renforcement pour les modèles linguistiques à grande échelle, le découplage de l’inférence et de la formation offre la possibilité d’exploiter efficacement des ressources hétérogènes géographiquement réparties.
Déchargez les tâches d'inférence vers le matériel de périphérie pour réduire les coûts tout en maintenant les performances au niveau du centre de données.
Le mode pull séquentiel et le mode push-pull asynchrone vous permettent de maximiser l'utilisation du matériel tout en maintenant l'efficacité statistique.
Limitations :
Des recherches supplémentaires sont nécessaires pour étudier l’évolutivité du système Echo proposé et sa compatibilité avec divers LLM.
Une analyse détaillée des retards de communication et de la gestion des erreurs qui peuvent survenir dans des environnements géographiquement distribués est nécessaire.
Des évaluations de performances supplémentaires dans divers environnements matériels sont nécessaires.
👍