Klear-Reasoner est un modèle capable de raisonner à long terme, faisant preuve d'une délibération rigoureuse lors de la résolution de problèmes et obtenant des performances exceptionnelles sur de nombreux benchmarks. Les modèles d'inférence existants peinent à reproduire des modèles performants en raison d'une divulgation incomplète des détails d'entraînement. Cet article analyse l'ensemble du processus, depuis la préparation des données jusqu'à l'optimisation de la carte de la chaîne de pensée longue (SFT à longue durée de vie) et l'apprentissage par renforcement (RL). Les résultats expérimentaux sur les données SFT démontrent qu'un petit nombre de sources de données de haute qualité est plus efficace qu'un grand nombre de sources de données diverses, et que l'utilisation d'échantillons complexes sans filtrage de précision produit de meilleurs résultats. De plus, pour résoudre deux problèmes clés des mécanismes de découpage RL existants (le découpage supprime les signaux d'exploration importants et ignore les chemins non optimaux), nous proposons l'optimisation de la politique de découpage préservant le gradient (GPPO). La GPPO rétropropage en douceur les gradients des jetons découpés afin d'améliorer la capacité d'exploration du modèle et l'apprentissage à partir d'échantillons négatifs. Klear-Reasoner démontre d'excellentes capacités de raisonnement en mathématiques et en programmation, obtenant un score de 90,5 % sur AIME 2024, 83,2 % sur AIME 2025, 66,0 % sur LiveCodeBench V5 et 58,1 % sur LiveCodeBench V6.