Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

LED : détection d'objets à vocabulaire ouvert améliorée LLM sans génération de données organisées par l'homme

Created by
  • Haebom

Auteur

Yang Zhou, Shiyu Zhao, Yuxiao Chen, Zhenting Wang, Can Jin et Dimitris N. Metaxas.

Contour

Les modèles de langage à grande échelle (LLM) entraînés sur des données de langage visuel à grande échelle peuvent améliorer la détection d'objets à vocabulaire ouvert (OVD) grâce à des données d'entraînement synthétiques. Cependant, les pipelines artisanaux introduisent souvent des biais et peuvent suradapter des invites spécifiques. Dans cet article, nous présentons une méthode systématique pour améliorer la vérité terrain visuelle en exploitant la couche décodeur du LLM. Nous introduisons un adaptateur d'attention croisée à initialisation nulle qui permet une fusion efficace des connaissances du LLM vers le détecteur d'objets, aboutissant à une nouvelle approche appelée LLM Enhanced Open-Vocabulary Object Detection (LED). Nous constatons que les couches LLM intermédiaires codent déjà une sémantique spatiale riche et que l'essentiel de l'amélioration des performances peut être obtenu en appliquant uniquement les couches initiales. En utilisant Swin-T comme encodeur de vision, Qwen2-0.5B + ​​LED améliore GroundingDINO de 3,82 % sur OmniLabel, avec seulement 8,7 % supplémentaires en GFLOP. Avec une structure de vision plus large, l'amélioration passe à 6,22 %. La conception est ensuite validée par des expériences approfondies avec la déformation de l'adaptateur, l'échelle LLM et la profondeur de fusion.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle méthode (LED) qui améliore efficacement les performances de détection d'objets de vocabulaire ouvert en exploitant la couche décodeur de LLM.
Résolution des problèmes de biais et de surajustement dans les pipelines manuels.
Nous confirmons que la couche intermédiaire de LLM contient une sémantique spatiale riche.
Obtenez des améliorations de performances significatives à faible coût de calcul supplémentaire.
Démontre l'applicabilité à différentes tailles de LLM et à différentes structures de vision.
Limitations:
Des recherches supplémentaires sont nécessaires sur les performances de généralisation de la méthode proposée.
Dépendances possibles sur des piliers LLM et vision spécifiques.
Une évaluation des performances sur d’autres ensembles de données OVD est nécessaire.
👍