Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs

Created by
  • Haebom

저자

Ling Team, Bin Hu, Cai Chen, Deng Zhao, Ding Liu, Dingnan Jin, Feng Zhu, Hao Dai, Hongzhi Luan, Jia Guo, Jiaming Liu, Jiewei Wu, Jun Mei, Jun Zhou, Junbo Zhao, Junwu Xiong, Kaihong Zhang, Kuan Xu, Lei Liang, Liang Jiang, Liangcheng Fu, Longfei Zheng, Qiang Gao, Qing Cui, Quan Wan, Shaomian Zheng, Shuaicheng Li, Tongkai Yang, Wang Ren, Xiaodong Yan, Xiaopei Wan, Xiaoyun Feng, Xin Zhao, Xinxing Yang, Xinyu Kong, Xuemin Yang, Yang Li, Yingting Wu, Yongkang Liu, Zhankai Xu, Zhenduo Zhang, Zhenglei Zhou, Zhenyu Huang, Zhiqiang Zhang, Zihao Wang, Zujie Wen

개요

Ring-lite는 강화학습(RL)을 통해 효율적이고 견고한 추론 능력을 달성하도록 최적화된 Mixture-of-Experts(MoE) 기반 대규모 언어 모델입니다. 168억 개의 파라미터 중 27.5억 개의 파라미터만 활성화하는 공개된 Ling-lite 모델을 기반으로, AIME, LiveCodeBench, GPQA-Diamond 와 같은 까다로운 벤치마크에서 최첨단(SOTA) 소규모 추론 모델의 성능에 필적하면서 비슷한 모델에 필요한 파라미터의 1/3만 활성화합니다. 이를 위해 증류와 RL을 통합하는 공동 학습 파이프라인을 도입하여 MoE RL 학습의 알려지지 않은 문제점을 밝힙니다. RL 학습 중 최적화 불안정성을 식별하고, 알고리즘-시스템 공동 설계 방법론을 통해 학습 안정성을 높이고 계산 처리량을 개선하는 새로운 방법인 Constrained Contextual Computation Policy Optimization(C3PO)를 제안합니다. 또한, RL 학습을 위한 증류 체크포인트를 검증 지표가 아닌 엔트로피 손실을 기반으로 선택하면 후속 RL 학습에서 우수한 성능-효율 절충안을 얻을 수 있음을 실험적으로 보여줍니다. 마지막으로, 혼합 데이터셋으로 학습할 때 발생하는 도메인 충돌을 해결하기 위해 2단계 학습 패러다임을 개발하여 다중 도메인 데이터 통합을 조화시킵니다. 모델, 데이터셋, 코드를 공개할 예정입니다.

시사점, 한계점

시사점:
MoE 기반 LLM에서 RL을 효과적으로 활용하여 추론 성능을 향상시키는 새로운 방법 제시.
제한된 파라미터 활성화를 통해 연산 효율성을 크게 개선.
MoE RL 학습의 안정성을 높이는 C3PO 알고리즘 개발.
증류 체크포인트 선택 전략 개선을 통한 성능-효율 균형 향상.
다중 도메인 데이터 통합을 위한 효과적인 학습 전략 제시.
모델, 데이터셋, 코드 공개를 통한 연구 재현성 및 확장성 확보.
한계점:
제시된 방법론의 일반화 성능에 대한 추가적인 연구 필요.
다양한 종류의 추론 문제에 대한 성능 평가가 더 필요.
C3PO 알고리즘의 계산 비용 및 복잡도 분석 필요.
대규모 데이터셋에 대한 적용 가능성 및 확장성 검증 필요.
👍