Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Le réglage fin supervisé sur des données organisées est un apprentissage par renforcement (et peut être amélioré)

Created by
  • Haebom

Auteur

Chongli Qin, Jost Tobias Springenberg

Contour

Cet article réinterprète le clonage comportemental (BC), une méthode traditionnelle d'apprentissage supervisé, dans une perspective d'apprentissage par renforcement (RL), expliquant qu'il maximise une borne inférieure de la fonction objectif de l'RL dans un environnement de récompense clairsemé. Nous démontrons que le réglage fin supervisé conventionnel (SFT) peut être compris comme une méthode permettant de maximiser cette borne inférieure, et proposons qu'une modification du SFT en réglage fin supervisé pondéré par l'importance (iw-SFT) offre une approximation plus précise de la fonction objectif de l'RL. L'iw-SFT peut surpasser le SFT et se généraliser efficacement aux données présentant des scores de qualité. Les résultats expérimentaux démontrent que l'iw-SFT est compétitif par rapport aux algorithmes d'apprentissage par renforcement avancés sur les modèles de langage à grande échelle et les tâches de contrôle continu, atteignant une performance de 66,7 % sur l'ensemble de données AIME 2024.

Takeaways, Limitations

Takeaways:
Nous avons réinterprété la SFT d’un point de vue RL pour renforcer ses fondements théoriques.
Nous améliorons les performances de SFT en proposant iw-SFT.
Nous proposons une méthode pour généraliser le SFT en exploitant les données de score de qualité.
Des résultats compétitifs ont été obtenus sur des modèles de langage à grande échelle et des tâches de contrôle continu.
Limitations:
Les améliorations de performances obtenues avec iw-SFT peuvent ne pas être uniformes dans tous les cas. Le degré d'amélioration peut varier selon les caractéristiques des données.
Des recherches complémentaires sont nécessaires pour déterminer la généralisabilité de la méthodologie présentée dans cet article. D'autres expériences sont nécessaires dans divers environnements et tâches.
L’absence de résultats expérimentaux sur des ensembles de données autres que l’ensemble de données AIME 2024 soulève des questions sur les performances de généralisation.
👍