Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Modèles de langage auto-questionnés

Created by
  • Haebom

Auteur

Lili Chen, Mihir Prabhudesai, Katerina Fragkiadaki, Hao Liu, Deepak Pathak

Contour

Cet article étudie si des modèles de langage pré-entraînés peuvent améliorer leurs capacités de raisonnement en générant des questions et des réponses de manière indépendante, sans données externes. Pour y parvenir, nous proposons des modèles de langage auto-questionnants (SQLM), un cadre d'auto-apprentissage asymétrique. Un proposant reçoit un sujet et génère des questions, tandis qu'un solveur y répond. Le proposant et le solveur sont tous deux entraînés par apprentissage par renforcement. Le proposant reçoit une récompense pour avoir généré un problème de difficulté appropriée, et le solveur reçoit une récompense pour avoir déterminé l'exactitude de la réponse par vote majoritaire. Pour les problèmes de codage, le proposant génère des tests unitaires, utilisés pour la validation. Des expériences sont menées sur trois benchmarks : la multiplication à trois chiffres, les problèmes d'algèbre du benchmark OMEGA et les problèmes de programmation de Codeforces. Nous démontrons que le modèle de langage peut améliorer les performances sans données externes.

Takeaways, Limitations_

Takeaways:
Suggérant la possibilité d’améliorer la capacité d’inférence des modèles linguistiques sans données externes.
Proposer un nouveau cadre de formation basé sur l'auto-apprentissage pour les modèles de langage
Applicabilité à divers types de problèmes (mathématiques, programmation)
Proposer une direction pour l'apprentissage des modèles de langage dans les environnements pauvres en données
Limitations:
Des questions se posent quant à l’exactitude de l’utilisation du vote majoritaire comme norme pour déterminer la bonne réponse.
Nécessité de vérifier les performances de généralisation pour des types de problèmes complexes et divers
Une analyse plus approfondie de la qualité et de la diversité des problèmes auto-générés est nécessaire.
Une analyse comparative est nécessaire avec des résultats expérimentaux utilisant des ensembles de données à grande échelle.
👍