[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Le réglage fin supervisé sur des données organisées est un apprentissage par renforcement (et peut être amélioré)

Created by
  • Haebom

Auteur

Chongli Qin, Jost Tobias Springenberg

Contour

Cet article traite du réglage fin par apprentissage supervisé (SFT) de modèles de langage à grande échelle et de la réplication comportementale (BC) sur données propres (ou filtrées), principalement utilisés pour l'apprentissage par imitation de politiques de contrôle. Sur la base d'études antérieures, nous clarifions que le SFT peut être compris comme maximisant une borne inférieure sur l'objectif d'apprentissage par renforcement (RL) dans des contextes de récompenses clairsemées. À cet égard, nous proposons un SFT pondéré par l'importance (iw-SFT), une légère modification du SFT qui se rapproche davantage de l'apprentissage par renforcement. L'iw-SFT optimise une borne plus étroite sur l'objectif d'apprentissage par renforcement et peut améliorer les performances par rapport au SFT sur données propres. L'iw-SFT est facile à mettre en œuvre et peut être généralisé à l'apprentissage avec des données notées par la qualité. Par conséquent, les variantes du SFT proposées sont compétitives par rapport aux algorithmes d'apprentissage par renforcement plus avancés pour l'apprentissage de politiques dans les modèles de langage à grande échelle et les tâches de contrôle continu. Par exemple, nous obtenons une performance de 66,7 % sur le jeu de données AIME 2024.

Takeaways, Limitations

Takeaways:
Nous soutenons théoriquement la performance supérieure du SFT en l'interprétant comme une maximisation de la limite inférieure de l'objectif RL.
Nous proposons une SFT pondérée en fonction de l'importance (iw-SFT) pour améliorer la SFT d'une manière plus proche de RL et obtenir une amélioration des performances.
Iw-SFT est simple à mettre en œuvre et généralisable pour utiliser les données de score de qualité.
Il montre des performances compétitives avec des algorithmes RL avancés sur des modèles de langage à grande échelle et des tâches de contrôle continu (66,7 % de performance sur l'ensemble de données AIME 2024).
Limitations:
Une vérification expérimentale supplémentaire est nécessaire pour vérifier si les améliorations de performance de l’iw-SFT présentées dans l’article sont cohérentes dans toutes les situations.
Les performances de l’iw-SFT peuvent être grandement affectées par la précision et la fiabilité des données de score de qualité.
Des recherches supplémentaires sont nécessaires sur les performances de généralisation de la méthode proposée, en particulier sur les évaluations de performances sur divers ensembles de données et tâches.
👍