Jujie He, Jiacai Liu, Chris Yuhao Liu, Rui Yan, Chaojie Wang, Peng Cheng, Xiaoyu Zhang, Fuxiang Zhang, Jiacheng Xu, Wei Shen, Siyuan Li, Liang Zeng, Tianwen Wei, Cheng Cheng, Bo An, Yang Liu, Yahui Zhou
개요
본 논문은 장거리 사고 과정(Chain-of-Thought, CoT) 모델을 위한 효과적이고 확장 가능한 강화 학습(Reinforcement Learning, RL) 구현인 Skywork-OR1을 제시합니다. DeepSeek-R1-Distill 모델 시리즈를 기반으로, RL 접근 방식을 통해 AIME24, AIME25, LiveCodeBench에서 평균 정확도를 32B 모델의 경우 57.8%에서 72.8%(+15.0%), 7B 모델의 경우 43.6%에서 57.5%(+13.9%)로 향상시켰습니다. Skywork-OR1-32B 모델은 AIME24 및 AIME25 벤치마크에서 DeepSeek-R1 및 Qwen3-32B를 능가하며, LiveCodeBench에서는 비슷한 성능을 보입니다. Skywork-OR1-7B 및 Skywork-OR1-Math-7B 모델은 유사한 크기의 모델들 중 경쟁력 있는 추론 능력을 보여줍니다. 훈련 파이프라인의 핵심 구성 요소에 대한 포괄적인 ablation study를 수행하여 효과를 검증하고, 엔트로피 붕괴 현상을 철저히 조사하여 주요 요인을 파악하고, 조기 엔트로피 붕괴 완화가 테스트 성능 향상에 중요함을 보여줍니다. 모델 가중치, 훈련 코드 및 훈련 데이터 세트를 완전히 오픈 소스로 공개합니다.
시사점, 한계점
•
시사점:
◦
장거리 CoT 모델의 추론 능력 향상을 위한 효과적인 RL 구현 방식을 제시.
◦
기존 모델 대비 성능 향상을 실험적으로 증명. (AIME24, AIME25, LiveCodeBench에서 상당한 정확도 향상)
◦
엔트로피 붕괴 현상에 대한 분석 및 완화 전략 제시.
◦
모델 가중치, 코드, 데이터셋 오픈소스 공개를 통한 연구 활성화 기여.
•
한계점:
◦
논문에서 구체적인 한계점이 명시적으로 언급되지 않음. 향후 연구를 통해 추가적인 개선 여지가 있을 수 있음.
◦
특정 벤치마크에 대한 성능만 제시되어, 다른 유형의 문제에 대한 일반화 성능은 불확실함.
◦
엔트로피 붕괴 완화 전략의 일반성 및 다른 모델에 대한 적용 가능성에 대한 추가 연구 필요.