Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Les modèles linguistiques peuvent s'auto-améliorer lors de l'estimation de la valeur de l'état pour une meilleure recherche

Created by
  • Haebom

Auteur

Ethan Mendes, Alan Ritter

Contour

Dans cet article, nous présentons Self-Taught Lookahead (STL), une nouvelle méthode d'apprentissage auto-supervisé permettant de résoudre les difficultés liées à la récompense des bonnes réponses ou à la collecte de données de démonstration humaine pour les tâches d'inférence en plusieurs étapes. STL améliore le modèle de valeur pour guider efficacement la recherche basée sur le modèle de langage sans données étiquetées, en exploitant la dynamique des transitions d'état. En appliquant STL à un modèle de valeur ouvert pondéré comportant 8 milliards de paramètres, nous obtenons des performances équivalentes à celles du modèle de valeur GPT-4o. De plus, en utilisant des modèles de valeur spécialisés appris par STL avec un algorithme de recherche léger, nous obtenons des performances équivalentes à celles des méthodes coûteuses de recherche arborescente, avec un coût divisé par 10.

Takeaways, Limitations_

Takeaways:
Nous présentons une nouvelle méthode pour améliorer les performances des agents d’apprentissage par renforcement dans les tâches d’inférence en plusieurs étapes sans données étiquetées.
Présente la possibilité de réduire considérablement le coût de la recherche à grande échelle basée sur un modèle linguistique.
Suggère la possibilité de construire un système d'inférence efficace en le combinant avec un algorithme de recherche léger.
Limitations:
La possibilité que les performances de STL soient limitées aux modèles de langage d'une certaine taille (8 milliards de paramètres).
Une validation supplémentaire des performances de généralisation dans différents domaines de tâches est nécessaire.
En raison de sa dépendance à la dynamique de transition d’état, elle ne peut s’appliquer qu’à certains types de problèmes.
👍