본 논문은 단일 센터 컴퓨팅의 한계를 극복하고 분산 학습의 중요성이 증대됨에 따라, 이종 분산 환경에서의 강화 학습(RL) 기반 대규모 언어 모델(LLM) 사후 학습의 어려움을 해결하기 위해 비동기 RL 아키텍처인 HeteroRL을 제안한다. HeteroRL은 롤아웃 샘플링과 파라미터 학습을 분리하여 네트워크 지연이 발생하는 지리적으로 분산된 노드에서도 강력한 성능을 제공한다. 특히, 지연으로 인한 KL 발산이 중요도 샘플링의 실패를 야기하는 높은 분산을 유발하는 문제점을 파악하고, 이를 해결하기 위해 개선된 샘플링 메커니즘을 통해 중요도 가중치 분산을 줄이는 Group Expectation Policy Optimization (GEPO) 알고리즘을 제안한다. GEPO는 이론적으로 지수적 분산 감소를 달성하며, 실험 결과 1800초의 지연 하에서도 3% 미만의 성능 저하만 보이며 GRPO보다 우수한 안정성을 유지함을 보여준다. 이는 이종 네트워크에서의 분산 RL의 강력한 잠재력을 입증한다.