Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Klear-Reasoner: Advancing Reasoning Capability via Gradient-Preserving Clipping Policy Optimization

Created by
  • Haebom

저자

Zhenpeng Su, Leiyu Pan, Xue Bai, Dening Liu, Guanting Dong, Jiaming Huang, Wenping Hu, Fuzheng Zhang, Kun Gai, Guorui Zhou

개요

Klear-Reasoner는 장문 추론 능력을 갖춘 모델로, 문제 해결 과정에서 신중한 숙고를 보여주며 여러 벤치마크에서 뛰어난 성능을 달성합니다. 기존의 추론 모델들은 학습 세부 정보의 불완전한 공개로 인해 고성능 모델 재현에 어려움이 있었으나, 본 논문에서는 데이터 준비, 장문 사고 과정(Chain-of-Thought) 지도 미세 조정(long CoT SFT), 강화 학습(RL)에 이르는 전체 과정을 자세히 분석합니다. SFT 데이터에 대한 실험 결과, 소량의 고품질 데이터 소스가 다수의 다양한 데이터 소스보다 효과적이며, 정확도 필터링 없이 어려운 샘플을 사용하는 것이 더 나은 결과를 얻을 수 있음을 보여줍니다. 또한, 기존 RL의 클리핑 메커니즘의 두 가지 주요 문제점(클리핑이 중요한 탐색 신호를 억제하고 비최적 경로를 무시함)을 해결하기 위해 기울기 보존 클리핑 정책 최적화(GPPO)를 제안합니다. GPPO는 클리핑된 토큰으로부터 기울기를 부드럽게 역전파하여 모델의 탐색 능력을 향상시키고 부정적 샘플로부터의 학습 효율성을 높입니다. Klear-Reasoner는 수학 및 프로그래밍에서 뛰어난 추론 능력을 보여주며, AIME 2024에서 90.5%, AIME 2025에서 83.2%, LiveCodeBench V5에서 66.0%, LiveCodeBench V6에서 58.1%의 점수를 기록합니다.

시사점, 한계점

시사점:
고품질 소량 데이터를 활용한 효과적인 SFT 데이터 전략 제시
어려운 샘플의 중요성 강조
기존 RL 클리핑 메커니즘의 문제점을 해결하는 GPPO 알고리즘 제안
수학 및 프로그래밍 문제 해결에서 우수한 성능을 보이는 Klear-Reasoner 모델 제시
한계점:
논문에서 제시된 방법론의 일반화 성능에 대한 추가적인 검증 필요
GPPO 알고리즘의 다른 RL 알고리즘과의 비교 분석 필요
Klear-Reasoner 모델의 확장성 및 한계에 대한 추가적인 연구 필요
👍