Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CoPRIS: Efficient and Stable Reinforcement Learning via Concurrency-Controlled Partial Rollout with Importance Sampling

Created by
  • Haebom
Category
Empty

저자

Zekai Qu, Yinxu Pan, Ao Sun, Chaojun Xiao, Xu Han

CoPRIS: Concurrency-Controlled Partial Rollout with Importance Sampling for RL Post-Training of LLMs

개요

대규모 언어 모델(LLM)의 성능 향상을 위한 강화 학습(RL) 사후 훈련 방식이 주목받고 있습니다. 기존의 대부분의 RL 시스템은 완전 동기 방식으로 작동하여 전체 배치의 롤아웃이 완료될 때까지 대기해야 합니다. 이는 매우 긴 궤적으로 인해 전체 롤아웃 프로세스가 중단되고 많은 GPU가 유휴 상태로 남아 비효율성을 초래합니다. 이러한 문제를 해결하기 위해, 본 논문에서는 고정된 수의 동시 롤아웃을 유지하고, 충분한 샘플이 수집되면 조기 종료하며, 완료되지 않은 궤적을 후속 롤아웃에서 재사용하는 Concurrency-Controlled Partial Rollout with Importance Sampling (CoPRIS)를 제안합니다. 또한, off-policy 궤적의 영향을 완화하기 위해 Cross-stage Importance Sampling Correction을 도입하여 중요도 샘플링 보정을 위해 이전 정책에서 버퍼링된 로그 확률과 현재 정책에서 재계산된 로그 확률을 연결합니다. 실험 결과, CoPRIS는 어려운 수학적 추론 벤치마크에서 동기식 RL 시스템과 유사하거나 더 우수한 성능을 유지하면서 최대 1.94배 빠른 훈련 속도를 달성했습니다.

시사점, 한계점

시사점:
LLM의 RL 사후 훈련 속도 향상: CoPRIS는 동기식 방식의 비효율성을 해결하여 훈련 속도를 크게 향상시켰습니다.
성능 유지: 동기식 RL 시스템과 유사하거나 더 우수한 성능을 보였습니다.
효율적인 GPU 활용: 긴 궤적으로 인한 GPU 유휴 시간을 줄여 자원 활용도를 높였습니다.
Off-policy 궤적 문제 해결: Cross-stage Importance Sampling Correction을 통해 off-policy 궤적의 영향을 완화했습니다.
한계점:
특정 벤치마크에 대한 실험 결과만 제시: 다양한 task 및 LLM 모델에 대한 일반화 가능성은 추가적인 연구가 필요합니다.
복잡한 시스템 구현: CoPRIS는 동시 롤아웃, 조기 종료, 중요도 샘플링 보정 등 여러 기술을 포함하여 시스템 구현이 복잡할 수 있습니다.
성능 비교 대상의 제한: 제시된 비교 대상이 제한적이므로 다른 RL 시스템과의 비교 분석이 필요합니다.
👍