Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Modèles de diffusion basés sur les scores et dirigés par la récompense via q-Learning

Created by
  • Haebom

Auteur

Xuefeng Gao, Jiale Zha, Xun Yu Zhou

Contour

Cet article propose une nouvelle formulation d'apprentissage par renforcement (RL) pour l'entraînement d'un modèle de diffusion en temps continu basé sur les scores pour l'IA générative. Cette formulation génère des échantillons qui maximisent une fonction de récompense tout en maintenant la distribution générée proche de la distribution cible inconnue des données. Contrairement aux études précédentes, nous ne cherchons pas à apprendre une fonction de score ni à utiliser un modèle pré-entraîné pour la fonction de score d'une distribution de données inconnue et bruyante. Nous formulons plutôt le problème comme un RL en temps continu régularisé par entropie et montrons que la politique probabiliste optimale a une distribution gaussienne avec une matrice de covariance connue. Sur la base de ce résultat, nous paramétrons la moyenne de la politique gaussienne et développons un algorithme d'apprentissage par renforcement (q-learning) de type acteur-critique (petit) pour résoudre le problème d'RL. Un élément clé de la conception de l'algorithme est d'obtenir des observations bruyantes à partir de la fonction de score inconnue via un estimateur de taux. Cette formulation peut également être appliquée à l'appariement de scores pur et au réglage fin de modèles pré-entraînés. Numériquement, nous démontrons l'efficacité de notre approche en comparant ses performances à celles de deux méthodes RL de pointe pour affiner des modèles pré-entraînés sur plusieurs tâches génératives, dont la génération d'images de grande dimension. Enfin, nous discutons de l'implémentation du modèle de diffusion par EDO de flux probabiliste et de l'extension de la formulation RL au modèle de diffusion conditionnelle.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle formulation RL pour la formation de modèles de diffusion basés sur des scores en temps continu sans modèles pré-entraînés.
Développement d'un algorithme efficace utilisant les caractéristiques de distribution gaussienne des politiques optimales.
Apprentissage efficace par l'acquisition d'observations bruyantes à l'aide d'un estimateur de ratio.
Il peut également être appliqué à la correspondance pure des scores et au réglage fin des modèles pré-entraînés.
A démontré des performances supérieures par rapport aux méthodes existantes dans diverses tâches de génération, y compris la génération d'images haute dimension.
Suggestion d'extensions aux EDO de flux stochastiques et aux modèles de diffusion conditionnelle.
Limitations:
D’autres expériences et analyses sont nécessaires pour déterminer les performances de généralisation de la méthode proposée.
Des recherches supplémentaires sont nécessaires sur l’évolutivité et les coûts de calcul des données de grande dimension.
Les performances peuvent être affectées par la précision de l’estimateur de ratio.
Limitations de performances dans les situations où il n’existe aucune information sur la fonction de notation inconnue.
👍