Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
Cet article souligne l'importance de l'apprentissage distribué pour surmonter les limites du calcul monocentrique, en se concentrant spécifiquement sur l'apprentissage par renforcement (RL) post-apprentissage des modèles de langage à grande échelle (LLM). Pour relever les défis inhérents aux environnements distribués hétérogènes, dus au couplage étroit des cycles d'échantillonnage et d'apprentissage dans l'apprentissage par renforcement conventionnel, nous proposons HeteroRL, une architecture d'apprentissage par renforcement asynchrone qui dissocie l'échantillonnage de déploiement et l'apprentissage des paramètres. Nous identifions le problème de variance élevée causé par la divergence KL due aux retards réseau, qui entraîne des échecs d'échantillonnage d'importance. Nous proposons l'algorithme d'optimisation de la politique d'espérance de groupe (GEPO), qui réduit la variance du poids d'importance grâce à un mécanisme d'échantillonnage amélioré. GEPO permet théoriquement une réduction exponentielle de la variance, et les résultats expérimentaux démontrent une dégradation des performances inférieure à 3 %, même avec des retards de 1 800 secondes, tout en conservant une stabilité supérieure à celle des méthodes existantes telles que GRPO. Cela suggère le potentiel considérable de l'apprentissage par renforcement distribué dans les réseaux hétérogènes.
Takeaways, Limitations
•
Takeaways:
◦
Nous présentons une méthode de post-formation efficace pour les modèles de langage à grande échelle utilisant l'apprentissage par renforcement dans des environnements distribués hétérogènes.
◦
Nous proposons HeteroRL, une architecture RL asynchrone robuste aux délais du réseau, et GEPO, une technique d'échantillonnage efficace.
◦
Le GEPO permet théoriquement une réduction exponentielle de la variance et il a été vérifié expérimentalement qu'il présente une excellente stabilité.
◦
Présentation de nouvelles possibilités pour la formation et le déploiement de modèles linguistiques à grande échelle dans des environnements distribués.
•
Limitations:
◦
Les améliorations de performances de GEPO peuvent être limitées à certains environnements réseau ou à certains types de LLM.
◦
En raison des limitations de l’environnement expérimental, une vérification supplémentaire des performances de généralisation dans un environnement distribué réel est nécessaire.
◦
Des recherches supplémentaires sont nécessaires sur l’évolutivité de HeteroRL et son applicabilité à d’autres environnements d’apprentissage distribués.