ViP²-CLIP은 제로샷 이상 탐지(ZSAD)를 위한 새로운 방법론으로, 타겟 도메인의 훈련 샘플 없이 외부 보조 데이터만을 사용하여 이상을 탐지합니다. 기존 CLIP 기반 방법들의 단점인 수작업 또는 정적 학습 가능 프롬프트의 한계(높은 엔지니어링 비용 및 제한된 의미 범위, 다양한 이상 유형에 대한 동일한 설명 적용으로 인한 복잡한 변화에 대한 적응 실패, 클래스 이름의 정확한 어휘에 대한 민감도)를 극복하기 위해, ViP²-CLIP은 시각적 인식 프롬프팅(ViP-Prompt) 메커니즘을 도입했습니다. 이 메커니즘은 전역 및 다중 스케일 로컬 시각적 컨텍스트를 융합하여 세분화된 텍스트 프롬프트를 적응적으로 생성하여 수동 템플릿과 클래스 이름 사전 정보를 제거합니다. 이를 통해 모델은 정확한 비정상 영역에 집중할 수 있으며, 특히 범주 레이블이 모호하거나 개인 정보 보호가 제한적인 경우에 유용합니다. 15개의 산업 및 의료 벤치마크에 대한 광범위한 실험을 통해 ViP²-CLIP이 최첨단 성능과 강력한 크로스 도메인 일반화를 달성함을 보여줍니다.