Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ACD-CLIP : Découplage de la représentation et fusion dynamique pour la détection d'anomalies à tir nul

Created by
  • Haebom

Auteur

Ke Ma, Jun Long, Hongxiao Fei, Liujie Hua, Yiran Qian, Zhen Dai, Yueyi Luo

Contour

Cet article souligne que les modèles de langage de vision (MLV) pré-entraînés rencontrent des difficultés pour la détection d'anomalies d'images à échelle zéro (ZSAD) en raison de leur manque de biais inductifs locaux nécessaires à la prédiction dense et de la rigidité de leurs paradigmes de fusion de caractéristiques. Pour pallier ces limitations, nous proposons un cadre de co-conception architecturale qui améliore simultanément la représentation des caractéristiques et la fusion intermodale. Plus précisément, nous proposons un adaptateur d'adaptation convolutionnelle à faible module (Conv-LoRA) efficace en termes de paramètres, qui injecte des biais inductifs locaux pour permettre des représentations fines, et une passerelle de fusion dynamique (DFG) qui ajuste de manière adaptative les invites textuelles en fonction du contexte visuel. Des expériences approfondies sur divers benchmarks industriels et médicaux démontrent une excellente précision et une robustesse remarquable, confirmant l'importance de cette co-conception synergique pour appliquer efficacement le modèle sous-jacent aux tâches de perception dense.

Takeaways, Limitations_

Takeaways:
Présentation d'un cadre de co-conception d'architecture efficace pour améliorer les performances de détection des anomalies d'image dans les VLM
Mise en œuvre d'une polarisation inductive locale et d'une fusion intermodale efficace via Conv-LoRA et DFG.
Démontrant une excellente précision et une robustesse sur une variété de critères de référence, le modèle fondamental offre un potentiel pour des tâches de perception denses.
Limitations:
Des recherches supplémentaires sont nécessaires sur les performances de généralisation de la méthode proposée.
Possibilité d'optimisation des performances pour des benchmarks spécifiques
Des expériences utilisant des ensembles de données plus diversifiés et plus volumineux peuvent être nécessaires.
👍