Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Modèles de langage auto-questionnés

Created by
  • Haebom

Auteur

Lili Chen, Mihir Prabhudesai, Katerina Fragkiadaki, Hao Liu, Deepak Pathak

Contour

Cet article présente des recherches visant à déterminer si les modèles de langage à grande échelle peuvent améliorer leurs performances en générant des questions et des réponses de manière indépendante, sans données externes. Pour y parvenir, nous proposons un cadre d'auto-apprentissage asymétrique appelé Modèle de langage auto-questionnant (SQLM). SQLM se compose d'un proposant qui génère des questions et d'un solveur qui génère des réponses, entraînés par apprentissage par renforcement. Le proposant vise à générer des problèmes de difficulté appropriée, et le solveur est jugé correct par un vote majoritaire. Pour les problèmes de codage, le proposant génère des tests unitaires, que le solveur vérifie. Nous avons mené des expériences sur trois benchmarks : la multiplication à trois chiffres, les problèmes algébriques du benchmark OMEGA et les problèmes de programmation de Codeforces, démontrant ainsi des améliorations de performances sans données externes.

Takeaways, Limitations

Takeaways:
Nous démontrons qu’il est possible d’améliorer la capacité d’inférence des modèles linguistiques à grande échelle sans données externes.
Présentation d'une méthode d'apprentissage efficace en termes de données grâce à un cadre d'auto-apprentissage.
L’applicabilité à divers types de problèmes (mathématiques, codage) a été vérifiée.
Limitations:
Utiliser le vote majoritaire comme critère pour déterminer la bonne réponse n’est pas une méthode parfaite pour déterminer la bonne réponse.
Les performances du cadre proposé peuvent varier selon les critères de référence.
La qualité des données auto-générées doit être vérifiée.
👍