Este artículo destaca las limitaciones de los enfoques existentes que realizan inferencia y optimización de políticas en el mismo clúster de GPU durante el post-entrenamiento de modelos de lenguaje a gran escala (LLM) basado en aprendizaje por refuerzo. Este enfoque viola el supuesto de "Programa Único, Múltiples Datos" (SPMD) y, por lo tanto, reduce la eficiencia. Por lo tanto, proponemos un sistema de aprendizaje por refuerzo llamado Echo, que mantiene la eficiencia estadística separando la inferencia y el entrenamiento en enjambres heterogéneos de "inferencia" y "entrenamiento". Echo introduce dos protocolos de sincronización ligeros: un modo de extracción secuencial, que actualiza los pesos de las políticas según las llamadas a la API para minimizar el sesgo, y un modo de inserción-extracción asíncrono, que transmite las implementaciones etiquetadas por versión a través de un búfer de reproducción para maximizar la utilización del hardware. El entrenamiento de tres tareas representativas de aprendizaje por refuerzo en clústeres distribuidos geográficamente utilizando Qwen3-4B, Qwen2.5-7B y Qwen3-32B revela que Echo alcanza una velocidad de convergencia y un rendimiento de recompensa final comparables a los de una línea base Verl completamente coubicada, a la vez que descarga las tareas de inferencia al hardware de borde común. Estos resultados demuestran que el aprendizaje de refuerzo LLM a gran escala puede lograr un rendimiento a nivel de centro de datos utilizando recursos distribuidos y heterogéneos.