Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning

Created by
  • Haebom
Category
Empty

저자

Wei Fu, Jiaxuan Gao, Xujie Shen, Chen Zhu, Zhiyu Mei, Chuyi He, Shusheng Xu, Guo Wei, Jun Mei, Jiashu Wang, Tongkai Yang, Binhang Yuan, Yi Wu

개요

강화 학습(RL)은 대규모 언어 모델(LLM)을 훈련하는 데, 특히 추론 작업에 있어 지배적인 패러다임으로 자리 잡았습니다. LLM을 위한 효과적인 RL은 대규모 병렬 처리를 필요로 하며, 효율적인 훈련 시스템에 대한 긴급한 요구를 제기합니다. 기존의 대부분의 대규모 RL 시스템은 동기적이며, 각 훈련 배치에서 동일한 모델에 의해 롤아웃이 생성되는 배치 설정에서 생성과 훈련을 번갈아 수행합니다. 이 방식은 RL 훈련을 안정화시키지만, 시스템 수준의 심각한 비효율성을 겪습니다. 즉, GPU 활용도가 낮아지고, 모델 업데이트 전에 배치에서 가장 긴 출력이 완료될 때까지 생성이 대기해야 합니다. 본 논문에서는 생성과 훈련을 완전히 분리하는 완전 비동기식 RL 시스템인 AReaL을 제시합니다. AReaL의 롤아웃 워커는 대기 없이 지속적으로 새로운 출력을 생성하며, 훈련 워커는 데이터 배치가 수집될 때마다 모델을 업데이트합니다. AReaL은 또한 시스템 수준의 최적화를 통합하여 GPU 활용도를 대폭 향상시킵니다. RL 훈련을 안정화하기 위해 AReaL은 롤아웃 및 훈련 워커의 작업 부하를 균형 있게 조정하여 데이터의 오래됨을 제어하고, 오래된 훈련 샘플을 더 잘 처리하기 위해 오래됨이 향상된 PPO 변형을 채택합니다. 수학 및 코드 추론 벤치마크에 대한 광범위한 실험 결과, AReaL은 동일한 수의 GPU를 사용하는 동기식 시스템에 비해 최대 2.77배의 훈련 속도 향상을 달성했으며, 최종 성능은 일치하거나 향상되었습니다.

시사점, 한계점

시사점:
완전 비동기식 RL 시스템 AReaL은 생성과 훈련을 분리하여 GPU 활용도를 극대화합니다.
AReaL은 시스템 수준의 최적화와 데이터 오래됨 제어, 오래됨이 향상된 PPO 변형을 통해 훈련을 안정화합니다.
수학 및 코드 추론 벤치마크에서 기존 시스템 대비 최대 2.77배의 훈련 속도 향상을 보입니다.
한계점:
논문에서 구체적인 한계점에 대한 언급은 없지만, RL 시스템의 복잡성으로 인해 구현 및 유지 보수가 어려울 수 있습니다.
시스템의 성능은 하드웨어 구성 및 벤치마크에 따라 달라질 수 있습니다.
논문에서 제시된 훈련 속도 향상이 모든 LLM 작업 및 환경에 적용될 수 있는 것은 아닐 수 있습니다.
👍