본 논문은 단일 센터 컴퓨팅의 한계를 극복하기 위해 분산형 강화학습(Reinforcement Learning, RL)을 제안합니다. 기존 RL 방법론은 매개변수 학습과 rollout sampling 간의 밀접한 결합으로 인해 분산 환경에 적용하기 어려운데, 본 논문에서 제시하는 HeteroRL은 이러한 과정을 분리하여 인터넷으로 연결된 지리적으로 분산된 노드에서 안정적인 학습을 가능하게 합니다. 핵심 구성 요소인 Group Expectation Policy Optimization (GEPO) 알고리즘은 네트워크 지연이나 컴퓨팅 자원의 이질성으로 인한 지연에 강건한 비동기 RL 알고리즘입니다. GEPO는 그룹 기대치 가중치를 사용하여 중요도 샘플링 가중치의 분산을 기하급수적으로 줄여 안정성을 확보하며, 이론적 보장 또한 제공합니다. 실험 결과, GEPO는 온라인 학습 대비 1800초의 지연에서도 성능 저하가 3%에 불과할 정도로 우수한 안정성을 보여주어 지리적으로 분산되고 자원이 이질적인 컴퓨팅 환경에서 분산형 RL의 가능성을 입증합니다.
시사점, 한계점
•
시사점:
◦
지리적으로 분산된 환경에서의 강화학습 안정성 문제 해결에 기여.
◦
자원 이질성이 존재하는 분산 환경에서도 효율적인 강화학습 학습 가능성 제시.
◦
GEPO 알고리즘을 통해 높은 지연에도 안정적인 학습 성능 유지 가능성 증명.
◦
대규모 모델의 사후 학습 최적화를 위한 새로운 방법론 제시.
•
한계점:
◦
실험 환경의 제한: 실제 대규모 분산 환경에서의 일반화 가능성에 대한 추가적인 검증 필요.