Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Génération réversible pré-entraînée comme apprentissage de représentation visuelle non supervisé

Created by
  • Haebom

Auteur

Rongkun Xue, Jinouwen Zhang, Yazhe Niu, Dazhong Shen, Bingqi Ma, Yu Liu, Jing Yang

Contour

Cet article souligne que les modèles génératifs récents basés sur l'appariement de scores et l'appariement de flux ont permis des progrès significatifs dans les tâches génératives, mais que leur potentiel pour les tâches discriminantes n'a pas été pleinement exploré. Les approches existantes, telles que les classificateurs génératifs, n'ont pas réussi à exploiter pleinement les capacités de ces modèles pour les tâches discriminantes en raison de leur conception complexe. Par conséquent, dans cet article, nous proposons un modèle génératif réversible pré-entraîné (PRG) qui extrait des représentations non supervisées en inversant le processus de génération des modèles génératifs continus pré-entraînés. Le PRG réutilise efficacement des modèles génératifs non supervisés pré-entraînés de grande capacité pour servir d'extracteurs de caractéristiques puissants et généralisables pour les tâches en aval. Ce cadre offre une flexibilité dans la sélection de hiérarchies de caractéristiques adaptées à des tâches en aval spécifiques. Les résultats expérimentaux montrent qu'il surpasse les approches existantes sur divers benchmarks, atteignant des performances de pointe parmi les méthodes basées sur des modèles génératifs, telles qu'une précision de 78 % dans le top 1 % sur ImageNet à une résolution de 64x64. De plus, nous vérifions l'efficacité de notre approche par des études d'ablation approfondies, y compris des évaluations hors distribution. Le code est disponible à l'adresse https://github.com/opendilab/PRG .

Takeaways, Limitations

Takeaways:
Nous présentons un nouveau cadre (PRG) qui peut réutiliser efficacement des modèles génératifs pré-entraînés pour améliorer les performances des tâches de discrimination en aval.
Fournit une méthode d'extraction de fonctionnalités flexible et généralisable applicable à diverses tâches en aval.
Atteindre des performances de pointe sur de grands ensembles de données d'images tels qu'ImageNet.
Limitations:
L’amélioration des performances de la méthode présentée dans cet article peut être limitée à des modèles génératifs ou à des ensembles de données spécifiques.
Des expériences supplémentaires sur des tâches et des ensembles de données en aval plus diversifiés sont nécessaires.
Manque d’analyse détaillée des coûts de calcul et des besoins en mémoire.
👍