[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Entraînement par score de mélange : apprentissage de modèles génératifs en une étape simplifié grâce à l'estimation du score des distributions de mélange

Created by
  • Haebom

Auteur

Tejas Jayashankar, J. Jon Ryu, Gregory Wornell

Contour

Dans cet article, nous proposons l'apprentissage par score de mélange (SMT), un nouveau cadre d'apprentissage de modèles génératifs en une étape, en minimisant une nouvelle divergence, appelée divergence Jensen-Shannon $\alpha$-skew. L'apprentissage par score de mélange vise à estimer les scores de la distribution de mélange entre échantillons réels et fictifs sous différents niveaux de bruit. À l'instar du modèle de cohérence, notre approche prend en charge à la fois l'apprentissage par score de mélange (SMT), qui est effectué à partir de zéro, et la distillation par score de mélange (SMD), qui est une distillation utilisant un modèle de diffusion pré-entraîné. Simple à mettre en œuvre, elle nécessite un réglage minimal des hyperparamètres et garantit un apprentissage stable. Les résultats expérimentaux obtenus sur CIFAR-10 et ImageNet 64x64 montrent que les approches SMT/SMD sont compétitives, voire supérieures, aux méthodes existantes.

Takeaways, Limitations

Takeaways:
Un nouveau cadre d'apprentissage de modèle génératif en une étape utilisant la divergence Jensen-Shannon $\alpha$-skew
Apprentissage stable possible avec une implémentation simple et un réglage minimal des hyperparamètres
Atteindre des performances compétitives et, dans certains cas, supérieures aux méthodes existantes.
Prend en charge à la fois l'apprentissage à partir de zéro (SMT) et la distillation à partir de modèles de diffusion pré-entraînés (SMD)
Limitations:
Les résultats expérimentaux présentés dans cet article se limitent à CIFAR-10 et ImageNet 64x64. Une évaluation des performances sur d'autres jeux de données ou des résolutions d'image plus élevées est nécessaire.
Une explication plus détaillée des raisons pour lesquelles nous choisissons la divergence Jensen-Shannon $\alpha$-skew est nécessaire.
Une analyse comparative plus approfondie avec d’autres modèles génératifs en une étape est nécessaire.
👍