Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Modèles de langage auto-questionnés

Created by
  • Haebom

Auteur

Lili Chen, Mihir Prabhudesai, Katerina Fragkiadaki, Hao Liu, Deepak Pathak

Contour

Cet article examine si les modèles de langage pré-entraînés peuvent améliorer leurs capacités d'inférence en générant eux-mêmes des questions et des réponses, sans données externes. Pour ce faire, nous proposons une méthode qui ne fournit qu'une seule invite, spécifiant un sujet (par exemple, un problème algébrique) et permettant au modèle de générer lui-même des questions. Nous présentons les modèles de langage auto-questionnants (SQLM), un cadre d'auto-apprentissage asymétrique composé d'un proposant (pour la génération de questions) et d'un résolveur (pour la génération de réponses), tous deux entraînés par apprentissage par renforcement. Le proposant est récompensé pour la génération de problèmes de difficulté appropriée, tandis que le résolveur est récompensé en fonction des votes majoritaires (ou des approximations si aucune réponse correcte n'est trouvée). Pour les problèmes de codage, le proposant génère des tests unitaires et les utilise pour la validation. Nous démontrons ce cadre sur trois benchmarks : la multiplication à trois chiffres, les problèmes d'algèbre du benchmark OMEGA et les problèmes de programmation de Codeforces, démontrant ainsi que ce cadre peut améliorer les performances des modèles de langage sans jeu de données d'entraînement externe.

Takeaways, Limitations_

Takeaways:
Suggérant la possibilité d’améliorer la capacité d’inférence des modèles linguistiques sans données externes.
Proposer une méthode d'apprentissage efficace à travers un cadre d'auto-apprentissage.
Applicabilité à divers types de problèmes (mathématiques, codage)
Un nouveau paradigme qui surmonte les limites de l’apprentissage existant basé sur des ensembles de données massifs.
Limitations:
Limites de précision de l'utilisation du vote majoritaire comme approximation de la bonne réponse
Absence de critères d'évaluation objectifs de la qualité des problèmes auto-générés
Nécessité de vérifier les performances de généralisation pour des types de problèmes complexes et divers
Des recherches supplémentaires sont nécessaires sur des expériences à grande échelle et divers modèles.
👍