Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Group Expectation Policy Optimization for Heterogeneous Reinforcement Learning

Created by
  • Haebom

저자

Han Zhang, Ruibin Zheng, Zexuan Yi, Zhuo Zhang, Hanyang Peng, Hui Wang, Zike Yuan, Cai Ke, Shiwei Chen, Jiacheng Yang, Yangning Li, Xiang Li, Jiangyue Yan, Yaoqi Liu, Liwen Jing, Jiayin Qi, Ruifeng Xu, Binxing Fang, Yue Yu

개요

본 논문은 단일 센터 컴퓨팅의 한계를 극복하고 분산 학습의 중요성이 증대됨에 따라, 이종 분산 환경에서의 강화 학습(RL) 기반 대규모 언어 모델(LLM) 사후 학습의 어려움을 해결하기 위해 비동기 RL 아키텍처인 HeteroRL을 제안한다. HeteroRL은 롤아웃 샘플링과 파라미터 학습을 분리하여 네트워크 지연이 발생하는 지리적으로 분산된 노드에서도 강력한 성능을 제공한다. 특히, 지연으로 인한 KL 발산이 중요도 샘플링의 실패를 야기하는 높은 분산을 유발하는 문제점을 파악하고, 이를 해결하기 위해 개선된 샘플링 메커니즘을 통해 중요도 가중치 분산을 줄이는 Group Expectation Policy Optimization (GEPO) 알고리즘을 제안한다. GEPO는 이론적으로 지수적 분산 감소를 달성하며, 실험 결과 1800초의 지연 하에서도 3% 미만의 성능 저하만 보이며 GRPO보다 우수한 안정성을 유지함을 보여준다. 이는 이종 네트워크에서의 분산 RL의 강력한 잠재력을 입증한다.

시사점, 한계점

시사점:
이종 분산 환경에서의 강화 학습 기반 LLM 사후 학습의 효율적인 방법 제시
네트워크 지연에 강건한 비동기 RL 아키텍처 HeteroRL 제안
중요도 가중치 분산을 줄이는 GEPO 알고리즘을 통해 안정적인 학습 성능 확보
이론적 분석과 실험적 결과를 통해 GEPO의 효과성 검증
분산 RL 기반 LLM 사후 학습의 실용화 가능성 제시
한계점:
실험 환경의 특수성으로 인한 일반화 가능성에 대한 추가 검증 필요
더욱 복잡하고 다양한 네트워크 환경에서의 성능 평가 필요
GEPO 알고리즘의 계산 복잡도 및 확장성에 대한 추가 연구 필요
다양한 LLM 아키텍처 및 RL 알고리즘과의 호환성 검토 필요
👍