Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning

Created by
  • Haebom

저자

Wei Fu, Jiaxuan Gao, Xujie Shen, Chen Zhu, Zhiyu Mei, Chuyi He, Shusheng Xu, Guo Wei, Jun Mei, Jiashu Wang, Tongkai Yang, Binhang Yuan, Yi Wu

개요

본 논문은 대규모 언어 모델(LLM)의 추론 작업을 위한 강화 학습(RL)의 효율성을 높이기 위해 비동기식 강화 학습 시스템인 AReaL을 제안합니다. 기존의 동기식 시스템은 배치 내 가장 긴 출력이 완료될 때까지 생성 작업이 대기해야 하므로 GPU 활용률이 낮다는 한계를 가지고 있습니다. AReaL은 생성과 학습을 완전히 분리하여 생성 작업자는 지속적으로 새로운 출력을 생성하고, 학습 작업자는 데이터 배치가 수집될 때마다 모델을 업데이트합니다. 여러 시스템 최적화 기법과 데이터 낙후성을 제어하는 workload 균형 및 낙후성을 고려한 PPO 변형을 통해 RL 학습의 안정성을 확보합니다. 수학 및 코드 추론 벤치마크 실험 결과, AReaL은 동기식 시스템에 비해 최대 2.77배의 학습 속도 향상을 달성했습니다.

시사점, 한계점

시사점:
LLM의 강화 학습 과정에서 GPU 활용률을 크게 높여 학습 속도를 향상시킬 수 있음을 보여줌.
비동기식 접근 방식을 통해 동기식 시스템의 병목 현상을 해결하여 효율성을 개선함.
낙후성을 고려한 PPO 변형과 workload 균형 조절을 통해 안정적인 RL 학습을 가능하게 함.
AReaL의 코드를 공개하여 다른 연구자들의 활용을 촉진함.
한계점:
제시된 벤치마크 외 다른 작업에 대한 일반화 성능은 추가 연구가 필요함.
데이터 낙후성 관리의 최적 전략 및 파라미터 튜닝에 대한 추가 연구가 필요함.
대규모 모델 및 데이터셋에 대한 확장성 평가가 추가적으로 필요함.
👍