Architectural Co-Design for Zero-Shot Anomaly Detection: Decoupling Representation and Dynamically Fusing Features in CLIP
Created by
Haebom
저자
Ke Ma, Jun Long, Hongxiao Fei, Liujie Hua, Yiran Qian, Zhen Dai, Yueyi Luo
개요
본 논문은 사전 훈련된 비전-언어 모델(VLMs)을 제로샷 이상 탐지(ZSAD)에 적용할 때 발생하는 적응력 저하 문제를 해결하기 위한 새로운 프레임워크를 제시합니다. VLMs는 밀집 예측을 위한 국소적 귀납적 편향이 부족하고 유연하지 못한 특징 융합 패러다임에 의존하는 한계를 가지는데, 이 논문에서는 아키텍처 공동 설계(Architectural Co-Design) 프레임워크를 통해 특징 표현과 교차 모드 융합을 동시에 개선합니다. 구체적으로, 매개변수 효율적인 합성곱 저차원 적응(Conv-LoRA) 어댑터를 통합하여 미세한 표현을 위한 국소적 귀납적 편향을 주입하고, 시각적 맥락을 활용하여 텍스트 프롬프트를 적응적으로 조절하는 동적 융합 게이트웨이(DFG)를 도입하여 강력한 양방향 융합을 가능하게 합니다. 다양한 산업 및 의료 벤치마크에 대한 광범위한 실험을 통해 우수한 정확성과 강건성을 입증하여 기초 모델을 밀집 지각 작업에 강력하게 적용하기 위해서는 이러한 시너지 효과를 내는 공동 설계가 중요함을 확인했습니다.