Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

NOVER : Formation incitative pour les modèles linguistiques via l'apprentissage par renforcement sans vérificateur

Created by
  • Haebom

Auteur

Wei Liu, Siya Qi, Xinyu Wang, Chen Qian, Yali Du, Yulan He

Contour

Cet article propose NOVER (No-Verifier Reinforcement Learning), un nouveau cadre d'apprentissage par renforcement sans vérificateurs externes. Les approches conventionnelles d'apprentissage par incitation reposent sur des vérificateurs externes, ce qui limite leur applicabilité dans des domaines comme les mathématiques et le codage, où les vérificateurs ne sont pas facilement disponibles. Cependant, NOVER permet un apprentissage par incitation en utilisant uniquement des données standard de réglage fin d'apprentissage supervisé. Applicable à diverses tâches de conversion de texte à texte, NOVER surpasse de 7,7 % les modèles de taille similaire issus de modèles d'inférence à grande échelle comme DeepSeek R1 671B. De plus, il offre de nouvelles possibilités d'optimisation de modèles linguistiques à grande échelle, comme l'apprentissage par incitation inverse.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle méthode pour améliorer la capacité d’inférence des modèles de langage grâce à l’apprentissage par renforcement sans avoir besoin de vérificateurs externes.
Fournit un cadre général applicable à une variété d’opérations de texte à texte.
Obtenez des performances améliorées par rapport aux modèles d’inférence à grande échelle existants.
Suggérant la possibilité de nouvelles techniques d’optimisation de modèles de langage à grande échelle, telles que l’apprentissage par incitation inverse.
Limitations:
Les améliorations de performances de la méthode proposée peuvent être limitées à des ensembles de données ou à des tâches spécifiques.
Des recherches supplémentaires sont nécessaires sur les performances de généralisation de NOVER et son applicabilité à diverses tâches.
Des analyses plus approfondies sont nécessaires sur l’efficacité des nouvelles techniques d’optimisation, telles que l’apprentissage par incitation inverse.
👍