[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ViP$^2$-CLIP: Visual-Perception Prompting with Unified Alignment for Zero-Shot Anomaly Detection

Created by
  • Haebom

저자

Ziteng Yang, Jingzehua Xu, Yanshu Li, Zepeng Li, Yeqiang Wang, Xinghui Li

개요

ViP²-CLIP은 제로샷 이상 탐지(ZSAD)를 위한 새로운 방법론으로, 타겟 도메인의 훈련 샘플 없이 외부 보조 데이터만을 사용하여 이상을 탐지합니다. 기존 CLIP 기반 방법들의 단점인 수작업 또는 정적 학습 가능 프롬프트의 한계(높은 엔지니어링 비용 및 제한된 의미 범위, 다양한 이상 유형에 대한 동일한 설명 적용으로 인한 복잡한 변화에 대한 적응 실패, 클래스 이름의 정확한 어휘에 대한 민감도)를 극복하기 위해, ViP²-CLIP은 시각적 인식 프롬프팅(ViP-Prompt) 메커니즘을 도입했습니다. 이 메커니즘은 전역 및 다중 스케일 로컬 시각적 컨텍스트를 융합하여 세분화된 텍스트 프롬프트를 적응적으로 생성하여 수동 템플릿과 클래스 이름 사전 정보를 제거합니다. 이를 통해 모델은 정확한 비정상 영역에 집중할 수 있으며, 특히 범주 레이블이 모호하거나 개인 정보 보호가 제한적인 경우에 유용합니다. 15개의 산업 및 의료 벤치마크에 대한 광범위한 실험을 통해 ViP²-CLIP이 최첨단 성능과 강력한 크로스 도메인 일반화를 달성함을 보여줍니다.

시사점, 한계점

시사점:
수작업 프롬프트 엔지니어링의 필요성 감소 및 의미 범위 확장
다양한 이상 유형에 대한 적응력 향상
클래스 이름에 대한 의존성 감소 및 모호한 레이블 또는 개인 정보 보호 제약 조건 하에서의 성능 향상
최첨단 성능 및 강력한 크로스 도메인 일반화 달성
한계점:
ViP-Prompt 메커니즘의 복잡성 및 계산 비용
다양한 이상 유형 및 데이터셋에 대한 일반화 성능의 추가적인 검증 필요
실제 산업 및 의료 환경 적용을 위한 추가적인 연구 필요
👍