[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training

Created by
  • Haebom

저자

Mingjie Liu, Shizhe Diao, Jian Hu, Ximing Lu, Xin Dong, Hao Zhang, Alexander Bukharin, Shaokun Zhang, Jiaqi Zeng, Makesh Narsimhan Sreedhar, Gerald Shen, David Mosallanezhad, Di Zhang, Jonas Yang, June Yang, Oleksii Kuchaiev, Guilin Liu, Zhiding Yu, Pavlo Molchanov, Yejin Choi, Jan Kautz, Yi Dong

개요

소규모 언어 모델에 장기간 강화 학습을 적용하여 수학, 코딩, 논리 퍼즐 등 다양한 추론 영역에서 성능 향상을 달성한 연구 결과를 제시합니다. 검증 가능한 보상 신호를 사용하고, GRPO(Group Relative Policy Optimization)를 개선하며, 훈련 안정성 및 일반화 성능을 높이기 위한 제어된 KL 정규화, 클리핑 비율, 주기적 참조 정책 재설정 등의 기법을 통해 효과적인 훈련을 수행했습니다. 결과적으로 수학(+14.7%), 코딩(+13.9%), 논리 퍼즐(+54.8%) 과제에서 기존 최고 성능 모델 대비 상당한 성능 향상을 보였으며, 훈련된 모델을 공개하여 후속 연구를 지원합니다.

시사점, 한계점

시사점:
장기간 강화 학습을 통한 소규모 언어 모델의 추론 능력 향상 가능성 제시
검증 가능한 보상 신호, GRPO 개선, 훈련 안정성 향상 기법의 효과 입증
다양한 추론 영역에서의 성능 향상 (수학, 코딩, 논리 퍼즐)
훈련된 모델 공개를 통한 연구 활성화 기여
한계점:
연구 대상이 소규모 언어 모델이라는 점. 대규모 모델에 적용했을 때의 성능은 확인되지 않았음.
특정 기법들의 효과에 대한 심층적인 분석 부족. 각 기법의 기여도에 대한 정량적 분석이 필요함.
사용된 데이터셋과 과제의 종류에 대한 상세한 설명 부족. 일반화 가능성에 대한 추가적인 검증이 필요함.
👍