Cet article souligne que les modèles de langage de vision (MLV) pré-entraînés rencontrent des difficultés pour la détection d'anomalies d'images à échelle zéro (ZSAD) en raison de leur manque de biais inductifs locaux nécessaires à la prédiction dense et de la rigidité de leurs paradigmes de fusion de caractéristiques. Pour pallier ces limitations, nous proposons un cadre de co-conception architecturale qui améliore simultanément la représentation des caractéristiques et la fusion intermodale. Plus précisément, nous proposons un adaptateur d'adaptation convolutionnelle à faible module (Conv-LoRA) efficace en termes de paramètres, qui injecte des biais inductifs locaux pour permettre des représentations fines, et une passerelle de fusion dynamique (DFG) qui ajuste de manière adaptative les invites textuelles en fonction du contexte visuel. Des expériences approfondies sur divers benchmarks industriels et médicaux démontrent une excellente précision et une robustesse remarquable, confirmant l'importance de cette co-conception synergique pour appliquer efficacement le modèle sous-jacent aux tâches de perception dense.