Klear-Reasoner는 장문 추론 능력을 갖춘 모델로, 문제 해결 과정에서 신중한 숙고를 보여주며 여러 벤치마크에서 뛰어난 성능을 달성합니다. 기존의 추론 모델들은 학습 세부 정보의 불완전한 공개로 인해 고성능 모델 재현에 어려움이 있었으나, 본 논문에서는 데이터 준비, 장문 사고 과정(Chain-of-Thought) 지도 미세 조정(long CoT SFT), 강화 학습(RL)에 이르는 전체 과정을 자세히 분석합니다. SFT 데이터에 대한 실험 결과, 소량의 고품질 데이터 소스가 다수의 다양한 데이터 소스보다 효과적이며, 정확도 필터링 없이 어려운 샘플을 사용하는 것이 더 나은 결과를 얻을 수 있음을 보여줍니다. 또한, 기존 RL의 클리핑 메커니즘의 두 가지 주요 문제점(클리핑이 중요한 탐색 신호를 억제하고 비최적 경로를 무시함)을 해결하기 위해 기울기 보존 클리핑 정책 최적화(GPPO)를 제안합니다. GPPO는 클리핑된 토큰으로부터 기울기를 부드럽게 역전파하여 모델의 탐색 능력을 향상시키고 부정적 샘플로부터의 학습 효율성을 높입니다. Klear-Reasoner는 수학 및 프로그래밍에서 뛰어난 추론 능력을 보여주며, AIME 2024에서 90.5%, AIME 2025에서 83.2%, LiveCodeBench V5에서 66.0%, LiveCodeBench V6에서 58.1%의 점수를 기록합니다.