Cet article met en évidence les limites des approches existantes qui effectuent l'inférence et l'optimisation des politiques sur le même cluster GPU lors du post-entraînement de modèles de langage à grande échelle (LLM) basé sur l'apprentissage par renforcement. Cette approche viole l'hypothèse SPMD (programme unique, données multiples) et nuit ainsi à l'efficacité. Par conséquent, nous proposons un système d'apprentissage par renforcement appelé Echo, qui maintient l'efficacité statistique en séparant l'inférence et l'entraînement en essaims hétérogènes d'« inférence » et d'« entraînement ». Echo introduit deux protocoles de synchronisation légers : un mode pull séquentiel, qui met à jour les pondérations des politiques en fonction des appels d'API afin de minimiser les biais, et un mode push-pull asynchrone, qui diffuse les déploiements étiquetés par version via un tampon de relecture afin de maximiser l'utilisation du matériel. L'entraînement de trois tâches d'apprentissage par renforcement représentatives sur des clusters géographiquement distribués à l'aide de Qwen3-4B, Qwen2.5-7B et Qwen3-32B révèle qu'Echo atteint une vitesse de convergence et des performances de récompense finale comparables à celles d'une base de référence Verl entièrement colocalisée, tout en déchargeant les tâches d'inférence sur du matériel périphérique commun. Ces résultats démontrent que l’apprentissage par renforcement LLM à grande échelle peut atteindre des performances de niveau centre de données en utilisant des ressources distribuées et hétérogènes.