Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
Cet article souligne l'importance d'une modélisation efficace des récompenses en apprentissage par renforcement pour améliorer le post-apprentissage des modèles génératifs visuels. Les méthodes existantes souffrent d'une grande complexité de mise en œuvre en raison de leur dépendance à de grandes quantités de données de préférences annotées par l'homme ou à des dimensions de qualité soigneusement conçues. Dans cet article, inspirés par l'apprentissage antagoniste des réseaux antagonistes génératifs (GAN), nous proposons GAN-RM, un cadre de modélisation des récompenses efficace qui élimine l'annotation manuelle des préférences et la conception explicite des dimensions de qualité. GAN-RM entraîne le modèle de récompense en distinguant une petite quantité de données non appariées représentatives (données proxy des préférences) des sorties typiques générées par le modèle, ne nécessitant que quelques centaines d'échantillons cibles. À travers diverses expériences, nous démontrons l'efficacité de GAN-RM dans plusieurs applications clés, notamment le filtrage d'échantillons au meilleur de N, le réglage fin supervisé (SFT) et l'optimisation directe des préférences (DPO). Le code et les données seront disponibles à l' adresse https://github.com/Visualignment/GAN-RM .