Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning

Created by
  • Haebom

저자

Wei Fu, Jiaxuan Gao, Xujie Shen, Chen Zhu, Zhiyu Mei, Chuyi He, Shusheng Xu, Guo Wei, Jun Mei, Jiashu Wang, Tongkai Yang, Binhang Yuan, Yi Wu

개요

본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 강화 학습(RL) 시스템인 AReaL을 제안합니다. 기존의 동기식 RL 시스템은 배치 단위로 생성과 학습을 번갈아 수행하여 GPU 활용도가 떨어지는 문제가 있습니다. AReaL은 생성과 학습을 완전히 비동기적으로 분리하여 이 문제를 해결합니다. 롤아웃 작업자는 지속적으로 새로운 출력을 생성하고, 학습 작업자는 데이터가 수집될 때마다 모델을 업데이트합니다. 여러 시스템 최적화 기법과 데이터 노후화 제어, 노후화 고려 PPO 변형을 통해 안정적인 학습과 높은 GPU 활용도를 달성합니다. 수학 및 코드 추론 벤치마크 실험 결과, AReaL은 기존 최고의 동기식 시스템에 비해 최대 2.57배의 학습 속도 향상을 보였습니다.

시사점, 한계점

시사점:
대규모 언어 모델의 강화 학습을 위한 효율적인 비동기식 시스템 AReaL을 제시.
기존 동기식 시스템 대비 최대 2.57배의 학습 속도 향상 달성.
높은 GPU 활용도를 통한 자원 효율 증대.
데이터 노후화 문제를 완화하는 새로운 PPO 변형 및 워크로드 균형 조절 기법 제시.
개선된 성능 및 속도 향상을 통해 LLM의 추론 능력 향상에 기여.
한계점:
제시된 벤치마크 외 다른 작업 또는 모델에 대한 일반화 성능 검증 필요.
비동기식 학습으로 인한 안정성 저하 및 hyperparameter tuning의 어려움 가능성.
데이터 노후화에 대한 완벽한 해결책은 아니며, 특정 수준의 노후화는 여전히 존재할 수 있음.
시스템 최적화 기법의 세부적인 설명이 부족할 수 있음.
👍