Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Prosperity before Collapse: How Far Can Off-Policy RL Reach with Stale Data on LLMs?

Created by
  • Haebom

저자

Haizhong Zheng, Jiawei Zhao, Beidi Chen

개요

강화 학습은 대규모 언어 모델 추론 발전에 핵심적인 역할을 해왔지만, 대부분의 알고리즘은 매 업데이트마다 새로운 롤아웃이 필요한 온-정책 훈련에 의존하여 효율성과 확장성을 제한합니다. 비동기 RL 시스템은 롤아웃 생성과 훈련을 분리하여 이 문제를 완화하지만, 롤아웃 데이터의 큰 낡음을 견디는 데 달려있으며, 이 경우 기존 방법은 성능이 저하되거나 붕괴됩니다. 본 연구에서는 이 문제에 대해 재고하고, 적절히 활용하면 낡은 데이터가 온-정책 데이터만큼 유익할 수 있다는 '붕괴 전 번영' 현상을 발견했습니다. 이를 바탕으로, M2PO (Second-Moment Trust Policy Optimization)를 제안하여 중요도 가중치의 두 번째 모멘트를 제한함으로써 극단적인 이상치를 억제하면서 유익한 업데이트를 보존합니다. M2PO는 높은 낡음 조건에서 잘린 토큰의 비율을 크게 줄이며, 고분산 토큰을 정확하게 마스킹하면서 안정적인 최적화를 유지합니다. 여섯 개의 모델과 여덟 개의 벤치마크에 대한 광범위한 평가를 통해 M2PO가 최소 256번의 모델 업데이트로 낡은 데이터에서도 안정적인 오프-정책 훈련을 제공하고, 온-정책 성능에 필적함을 보여줍니다.

시사점, 한계점

시사점:
M2PO는 낡은 데이터를 활용하여 오프-정책 강화 학습의 효율성을 향상시킵니다.
M2PO는 높은 낡음 환경에서도 안정적인 훈련을 가능하게 합니다.
M2PO는 다양한 규모의 모델과 벤치마크에서 우수한 성능을 보입니다.
한계점:
M2PO의 성능은 두 번째 모멘트 제약 조건의 적절한 설정에 의존할 수 있습니다.
구체적인 하이퍼파라미터 설정에 대한 자세한 정보는 논문에 제시되지 않았습니다.
오프라인 데이터셋 환경에서의 실험 결과는 제공되지 않았습니다.
👍