Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Vers la révélation de l'efficacité du réglage fin à petite échelle dans l'apprentissage par renforcement de type R1

Created by
  • Haebom

Auteur

Yutong Chen, Jiandong Gao, Ji Wu

Contour

Cet article démontre que l'apprentissage par renforcement (RL) basé sur des règles améliore significativement les performances d'inférence des modèles de langage à grande échelle (LLM), mais les mécanismes sous-jacents restent flous. Nous constatons que le réglage fin supervisé à petite échelle (SFT) a un impact significatif sur l'RL, mais est inefficace, et proposons un cadre analytique pour expliquer ce phénomène. Nous comparons l'efficacité du SFT et de l'RL en mesurant l'effet d'échantillonnage et suggérons la possibilité d'améliorer l'efficacité du SFT. Sur la base de cette analyse, nous proposons une technique de « redistillation » qui échantillonne des politiques entraînées par RL afin d'améliorer l'efficacité de la distillation à petite échelle. Sur trois ensembles de données et le modèle Qwen & Llama, nous démontrons que le modèle de redistillation atteint des performances d'RL avec un nombre d'échantillons et de calculs nettement inférieur. Sur l'ensemble de données K & K, le modèle Qwen-2.5-1.5B redistillé surpasse DeepSeek-V3-0324 avec seulement 1 000 échantillons SFT. De plus, nous démontrons que la redistillation peut être utilisée pour équilibrer efficacement plusieurs objectifs dans le RL et expliquons plusieurs phénomènes intéressants dans le RL de style R1, révélant les mécanismes derrière son succès empirique.

Takeaways, Limitations

Takeaways:
Proposition d'une technique de redistillation pour améliorer l'efficacité du SFT à petite échelle.
Obtenir des performances de niveau RL avec moins d'échantillons et de calculs.
Meilleure compréhension des mécanismes du RL de type R1.
Présentation de la possibilité d'équilibrage multi-objectifs en RL.
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité du cadre analytique proposé et de la technique de redistillation.
D’autres expériences sur divers LLM et ensembles de données sont nécessaires.
Une analyse plus approfondie du coût de calcul et des limites pratiques des techniques de redistillation est nécessaire.
👍