본 논문은 단일 센터 컴퓨팅의 한계를 극복하기 위해 분산 학습의 중요성을 강조하며, 특히 대규모 언어 모델(LLM)의 강화 학습(RL) 후 학습에 초점을 맞춥니다. 기존 RL의 샘플링-학습 순환 과정의 밀접한 결합으로 인해 이기종 분산 환경에서 어려움을 겪는 문제를 해결하기 위해, 롤아웃 샘플링과 파라미터 학습을 분리하는 비동기 RL 아키텍처인 HeteroRL을 제안합니다. 네트워크 지연으로 인한 KL divergence가 중요도 샘플링의 실패를 야기하는 높은 분산을 유발하는 문제를 파악하고, 개선된 샘플링 메커니즘을 통해 중요도 가중치 분산을 줄이는 Group Expectation Policy Optimization (GEPO) 알고리즘을 제시합니다. GEPO는 이론적으로 지수적인 분산 감소를 달성하며, 실험 결과 1800초의 지연 하에서도 3% 미만의 성능 저하만 보이며 GRPO 등 기존 방법보다 우수한 안정성을 유지함을 보여줍니다. 이는 이기종 네트워크에서의 분산 RL에 강력한 잠재력을 시사합니다.
시사점, 한계점
•
시사점:
◦
이기종 분산 환경에서 강화 학습을 이용한 대규모 언어 모델의 효율적인 후 학습 방법을 제시.
◦
네트워크 지연에 강건한 비동기 RL 아키텍처 HeteroRL과 효율적인 샘플링 기법 GEPO를 제안.
◦
GEPO는 이론적으로 지수적인 분산 감소를 달성하며 실험적으로도 우수한 안정성을 검증.
◦
분산 환경에서의 대규모 언어 모델 학습 및 배포에 대한 새로운 가능성 제시.
•
한계점:
◦
GEPO의 성능 향상이 특정 네트워크 환경 또는 특정 유형의 LLM에 국한될 가능성.
◦
실험 환경의 제한으로 인해 실제 분산 환경에서의 일반화 성능에 대한 추가적인 검증 필요.
◦
HeteroRL의 확장성 및 다른 분산 학습 환경에서의 적용 가능성에 대한 추가 연구 필요.