Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs

Created by
  • Haebom

저자

Ring Team, Bin Hu, Cai Chen, Deng Zhao, Ding Liu, Dingnan Jin, Feng Zhu, Hao Dai, Hongzhi Luan, Jia Guo, Jiaming Liu, Jiewei Wu, Jun Mei, Jun Zhou, Junbo Zhao, Junwu Xiong, Kaihong Zhang, Kuan Xu, Lei Liang, Liang Jiang, Liangcheng Fu, Longfei Zheng, Qiang Gao, Qing Cui, Quan Wan, Shaomian Zheng, Shuaicheng Li, Tongkai Yang, Wang Ren, Xiaodong Yan, Xiaopei Wan, Xiaoyun Feng, Xin Zhao, Xinxing Yang, Xinyu Kong, Xuemin Yang, Yang Li, Yingting Wu, Yongkang Liu, Zhankai Xu, Zhenduo Zhang, Zhenglei Zhou, Zhenyu Huang, Zhiqiang Zhang, Zihao Wang, Zujie Wen

개요

Ring-lite는 강화학습(RL)을 통해 최적화된 Mixture-of-Experts(MoE) 기반 대규모 언어 모델입니다. 공개적으로 이용 가능한 168억 파라미터(활성화 파라미터 27.5억)의 Ling-lite 모델을 기반으로, AIME, LiveCodeBench, GPQA-Diamond와 같은 까다로운 벤치마크에서 최첨단 소규모 추론 모델의 성능과 동등한 수준을 달성하면서, 비슷한 모델의 1/3 수준의 파라미터만 활성화합니다. 이를 위해 증류와 RL을 통합하는 공동 학습 파이프라인을 도입하여 MoE RL 학습에서의 과제를 해결했습니다. RL 학습 중 최적화 불안정성 문제를 해결하기 위해 알고리즘-시스템 공동 설계 방법론을 통해 학습 안정성과 계산 처리량을 향상시키는 C3PO(Constrained Contextual Computation Policy Optimization)라는 새로운 방법을 제시합니다. 또한, RL 학습을 위한 증류 체크포인트를 검증 지표가 아닌 엔트로피 손실을 기반으로 선택하면 성능-효율 균형이 향상됨을 실험적으로 보여줍니다. 마지막으로, 혼합 데이터셋으로 학습 시 발생하는 도메인 충돌을 해결하기 위해 2단계 학습 패러다임을 개발하여 다중 도메인 데이터 통합을 조화시켰습니다. 모델, 데이터셋, 코드를 공개할 예정입니다.

시사점, 한계점

시사점:
MoE 기반의 효율적인 대규모 언어 모델 설계 및 RL 기반 최적화 방법 제시.
제한된 파라미터 활성화를 통한 연산 비용 절감 및 성능 향상.
MoE RL 학습의 안정성 향상을 위한 C3PO 기법 제안.
증류 체크포인트 선택 전략 개선을 통한 성능-효율 균형 개선.
다중 도메인 데이터 통합을 위한 2단계 학습 패러다임 제시.
모델, 데이터셋, 코드 공개를 통한 연구 재현성 및 확장성 확보.
한계점:
제시된 방법론의 일반화 가능성에 대한 추가 연구 필요.
다양한 크기 및 유형의 모델에 대한 적용성 검증 필요.
C3PO를 포함한 제안된 방법론의 다른 MoE 모델 또는 RL 방법론과의 비교 분석 필요.
특정 벤치마크에 대한 성능 평가 결과이므로, 다른 작업 또는 벤치마크에서의 성능을 추가적으로 평가해야 함.
👍