본 논문은 대규모 언어 모델(LLM)의 추론 작업을 위한 강화 학습(RL) 시스템의 효율성을 높이기 위해 비동기식 RL 시스템인 AReaL을 제안합니다. 기존의 동기식 시스템은 배치 내 가장 긴 출력이 완료될 때까지 기다려야 하므로 GPU 활용률이 낮다는 한계가 있습니다. AReaL은 생성과 학습을 완전히 분리하여 생성 작업자는 지속적으로 새로운 출력을 생성하고, 학습 작업자는 데이터 배치가 수집될 때마다 모델을 업데이트합니다. 여러 시스템 최적화 기법과 데이터 낙후성 제어, 낙후성을 고려한 PPO 변형을 통해 RL 학습의 안정성을 확보하고 GPU 활용률을 크게 높였습니다. 수학 및 코드 추론 벤치마크 실험 결과, 동기식 시스템에 비해 최대 2.77배의 학습 속도 향상을 달성했습니다.
시사점, 한계점
•
시사점:
◦
대규모 언어 모델의 강화 학습을 위한 효율적인 비동기식 시스템 AReaL을 제시.
◦
동기식 시스템에 비해 GPU 활용률을 크게 높여 학습 속도를 최대 2.77배 향상.
◦
데이터 낙후성을 고려한 PPO 변형 및 작업 부하 균형 조절을 통해 RL 학습의 안정성 확보.