由于缺乏密度估计所需的局部归纳偏差以及特征融合范式不够灵活,预训练的视觉语言模型 (VLM) 在零样本异常检测 (ZSAD) 方面表现不佳。本文提出了一个架构协同设计框架,旨在共同提升特征表示和跨模态融合的性能。我们提出了一个参数高效的卷积低秩自适应 (Conv-LoRA) 适配器来注入局部归纳偏差,并提出了一个动态融合网关 (DFG) 来自适应地调整文本提示,从而实现稳健的双向融合。在各种工业和医疗基准上进行的大量实验证明了其卓越的准确性和稳健性,证实了这种协同协同设计对于将基础模型稳健地应用于密度感知任务至关重要。