Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Rapport technique Compass-Thinker-7B

Created by
  • Haebom

Auteur

Anxiang Zeng, Haibo Zhang, Kaixiang Mo, Long Zhang, Shuman Liu, Yanhui Huang, Yawen Liu, Yuepeng Sheng, Yuwei Huang

Contour

Compass-Thinker-7B est un modèle de langage à 7 milliards de paramètres qui améliore les capacités de raisonnement mathématique grâce à l'apprentissage par renforcement. Pour pallier les contraintes de coûts et de ressources élevées liées à l'application de l'apprentissage par renforcement aux modèles de langage existants à grande échelle, il a été entraîné à l'aide d'un pipeline d'apprentissage par renforcement performant et d'un jeu de données de 30 000 problèmes mathématiques vérifiables. Des ajustements progressifs de la difficulté libèrent progressivement le potentiel du modèle et améliorent l'efficacité de l'entraînement. Il atteint notamment une précision de 40 % lors de l'évaluation AIME2024, démontrant ainsi des performances de raisonnement mathématique supérieures à celles d'autres modèles d'apprentissage par renforcement de même envergure.

Takeaways, Limitations

Takeaways:
Nous démontrons qu’un apprentissage par renforcement efficace peut atteindre des capacités d’inférence supérieures même sur des modèles à relativement petite échelle, plutôt que sur des modèles à grande échelle.
Nous suggérons qu’une stratégie d’apprentissage par renforcement utilisant un ajustement de la difficulté étape par étape peut efficacement faire ressortir le potentiel du modèle.
Il suggère que le développement de modèles d’inférence haute performance est possible même avec des ressources limitées, et suggère des orientations pour les recherches futures sur l’apprentissage par renforcement pour les modèles à grande échelle.
Limitations:
L'évaluation des performances du modèle Compass-Thinker-7B s'est principalement limitée aux problèmes mathématiques. Des recherches supplémentaires sont nécessaires pour évaluer ses performances sur d'autres types de problèmes de raisonnement.
La taille de l'ensemble de données utilisé (30 000 points) est relativement faible par rapport aux ensembles de données utilisés pour l'entraînement de modèles à grande échelle. Des recherches utilisant des ensembles de données plus importants pourraient s'avérer nécessaires.
Des recherches complémentaires sont nécessaires pour déterminer la généralisabilité du pipeline d'apprentissage par renforcement proposé. Son applicabilité à d'autres types de problèmes et de modèles doit être vérifiée.
👍