AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning
Created by
Haebom
저자
Yang Chen, Zhuolin Yang, Zihan Liu, Chankyu Lee, Peng Xu, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping
개요
본 논문은 대규모 강화 학습(RL)을 사용하여 소규모 및 중규모 언어 모델의 추론 능력을 향상시키는 연구에 대해 다룹니다. 기존 연구에서 효과적인 것으로 알려진 지식 증류 기법 대신, RL을 통해 강력한 소규모 및 중규모 모델의 성능을 뛰어넘는 결과를 달성했습니다. 특히, 수학 문제만으로 사전 훈련 후 코드 문제로 훈련하는 단계적 접근 방식을 제안하며, 이를 통해 수학 및 코드 추론 과제 모두에서 성능 향상을 확인했습니다. 또한, 고품질의 검증 가능한 답변과 테스트 케이스를 포함하는 강력한 데이터 정제 파이프라인을 개발하여 검증 기반 RL을 가능하게 했습니다. 마지막으로, 점진적으로 증가하는 응답 길이를 사용한 커리큘럼 학습과 온-폴리시 매개변수 업데이트의 안정화 효과 등 주요 실험적 통찰력을 제시합니다.
시사점, 한계점
•
시사점:
◦
대규모 RL이 소규모 및 중규모 모델의 추론 능력을 크게 향상시킬 수 있음을 증명.
◦
수학 문제로의 사전 훈련 후 코드 문제 훈련이라는 단계적 접근 방식의 효과성을 입증.
◦
고품질 데이터 정제 파이프라인 및 검증 기반 RL의 중요성을 강조.
◦
커리큘럼 학습과 온-폴리시 매개변수 업데이트의 효과를 확인.
◦
RL이 사전 훈련 및 지도 학습으로 얻은 기본 추론 능력을 활용하여 모델의 추론 능력의 한계를 뛰어넘을 수 있음을 보여줌.