Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Regrouper et prédire les patchs latents pour une modélisation améliorée des images masquées

Created by
  • Haebom

Auteur

Timothée Darcet, Federico Baldassarre, Maxime Oquab, Julien Mairal, Piotr Bojanowski

Contour

Dans cet article, nous présentons CAPI, un nouveau framework MIM pur basé sur la prédiction de clustering latent, qui permet de surmonter les limitations de performance des modèles MIM (Modélisation d'Images Masquées) existants. CAPI utilise une fonction de perte basée sur le clustering, avec un entraînement stable et une évolutivité optimale. Grâce à la base ViT-L, CAPI atteint une précision de 83,8 % sur ImageNet et de 32,1 % mIoU sur ADE20K, surpassant ainsi largement les méthodes MIM existantes et se rapprochant de la technologie DINOv2. L'ensemble du code et des modèles est open source.

Takeaways, Limitations_

Takeaways:
Démonstration de l’efficacité du cadre MIM en utilisant des fonctions de perte basées sur le clustering.
Il atteint des performances supérieures aux méthodes MIM existantes et présente des performances proches de celles des modèles de pointe.
Améliorer la reproductibilité et l’évolutivité de la recherche grâce au code ouvert et à la divulgation des modèles.
Limitations:
Il existe toujours un écart de performance par rapport à DINOv2.
Des expériences supplémentaires sont nécessaires pour évaluer les performances de généralisation de la méthode proposée.
Des recherches supplémentaires sont nécessaires sur l’optimisation des paramètres des fonctions de perte basées sur le clustering.
👍