Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Faites semblant jusqu'à y arriver : la modélisation des récompenses comme prédiction discriminante

Created by
  • Haebom

Auteur

Runtao Liu, Jiahao Zhan, Yingqing He, Chen Wei, Alan Yuille, Qifeng Chen

Contour

Cet article souligne l'importance d'une modélisation efficace des récompenses en apprentissage par renforcement pour améliorer le post-apprentissage des modèles génératifs visuels. Les méthodes existantes souffrent d'une grande complexité de mise en œuvre en raison de leur dépendance à de grandes quantités de données de préférences annotées par l'homme ou à des dimensions de qualité soigneusement conçues. Dans cet article, inspirés par l'apprentissage antagoniste des réseaux antagonistes génératifs (GAN), nous proposons GAN-RM, un cadre de modélisation des récompenses efficace qui élimine l'annotation manuelle des préférences et la conception explicite des dimensions de qualité. GAN-RM entraîne le modèle de récompense en distinguant une petite quantité de données non appariées représentatives (données proxy des préférences) des sorties typiques générées par le modèle, ne nécessitant que quelques centaines d'échantillons cibles. À travers diverses expériences, nous démontrons l'efficacité de GAN-RM dans plusieurs applications clés, notamment le filtrage d'échantillons au meilleur de N, le réglage fin supervisé (SFT) et l'optimisation directe des préférences (DPO). Le code et les données seront disponibles à l' adresse https://github.com/Visualignment/GAN-RM .

Takeaways, Limitations

Takeaways:
Présentation de GAN-RM, un cadre de modélisation de récompense efficace qui ne nécessite pas d'annotation humaine
Un apprentissage efficace du modèle de récompense est possible avec seulement un petit nombre d'échantillons représentatifs
Efficacité prouvée dans une variété d'applications, notamment Best-of-N, SFT et DPO
Résoudre les problèmes de complexité et d'inefficacité des méthodes existantes
Limitations:
Manque d'explications détaillées sur la façon de sélectionner les données proxy de préférence
Il est nécessaire de vérifier les performances de généralisation pour divers modèles et ensembles de données génératifs
Peut-être applicable uniquement à certains types de modèles génératifs visuels (absence de champ d'application spécifique)
👍