Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Klear-Reasoner : amélioration des capacités de raisonnement grâce à l'optimisation de la politique de découpage préservant le gradient

Created by
  • Haebom

Auteur

Zhenpeng Su, Leiyu Pan, Xue Bai, Dening Liu, Guanting Dong, Jiaming Huang, Wenping Hu, Fuzheng Zhang, Kun Gai, Guorui Zhou

Contour

Klear-Reasoner est un modèle capable de raisonner à long terme, faisant preuve d'une délibération rigoureuse lors de la résolution de problèmes et obtenant des performances exceptionnelles sur de nombreux benchmarks. Les modèles d'inférence existants peinent à reproduire des modèles performants en raison d'une divulgation incomplète des détails d'entraînement. Cet article analyse l'ensemble du processus, depuis la préparation des données jusqu'à l'optimisation de la carte de la chaîne de pensée longue (SFT à longue durée de vie) et l'apprentissage par renforcement (RL). Les résultats expérimentaux sur les données SFT démontrent qu'un petit nombre de sources de données de haute qualité est plus efficace qu'un grand nombre de sources de données diverses, et que l'utilisation d'échantillons complexes sans filtrage de précision produit de meilleurs résultats. De plus, pour résoudre deux problèmes clés des mécanismes de découpage RL existants (le découpage supprime les signaux d'exploration importants et ignore les chemins non optimaux), nous proposons l'optimisation de la politique de découpage préservant le gradient (GPPO). La GPPO rétropropage en douceur les gradients des jetons découpés afin d'améliorer la capacité d'exploration du modèle et l'apprentissage à partir d'échantillons négatifs. Klear-Reasoner démontre d'excellentes capacités de raisonnement en mathématiques et en programmation, obtenant un score de 90,5 % sur AIME 2024, 83,2 % sur AIME 2025, 66,0 % sur LiveCodeBench V5 et 58,1 % sur LiveCodeBench V6.

Takeaways, Limitations

Takeaways:
Présentation d'une stratégie de données SFT efficace utilisant des données de haute qualité et de petit volume.
Souligner l’importance des échantillons difficiles
Une proposition pour un algorithme GPPO qui résout les problèmes des mécanismes de découpage RL existants.
Nous présentons le modèle Klear-Reasoner, qui démontre d’excellentes performances dans la résolution de problèmes mathématiques et de programmation.
Limitations:
Une vérification supplémentaire des performances de généralisation de la méthodologie présentée dans l’article est nécessaire.
Une analyse comparative de l’algorithme GPPO avec d’autres algorithmes RL est nécessaire.
Des recherches supplémentaires sont nécessaires sur l’évolutivité et les limites du modèle Klear-Reasoner.
👍