Prompt-CAM: Making Vision Transformers Interpretable for Fine-Grained Analysis
Created by
Haebom
저자
Arpita Chowdhury, Dipanjyoti Paul, Zheda Mai, Jianyang Gu, Ziheng Zhang, Kazi Sajeed Mehrab, Elizabeth G. Campolongo, Daniel Rubenstein, Charles V. Stewart, Anuj Karpatne, Tanya Berger-Wolf, Yu Su, Wei-Lun Chao
개요
본 논문은 사전 훈련된 비전 트랜스포머(ViTs)의 해석성을 향상시키는 간단한 방법인 Prompt-CAM을 제시합니다. 특히, 새 종류와 같이 시각적으로 유사한 범주를 구별하는 특징을 식별하고 지역화하는 것을 목표로 합니다. 기존의 Grad-CAM과 같은 방법은 전체 객체를 강조하는 흐릿한 히트맵을 생성하는 반면, Prompt-CAM은 사전 훈련된 ViT에 클래스별 프롬프트를 학습하고 해당 출력을 분류에 사용하여 진짜 클래스 프롬프트가 다른 클래스 이미지에는 없는 고유한 이미지 패치(즉, 특징)에 주목해야만 정확하게 이미지를 분류할 수 있도록 합니다. 결과적으로, 진짜 클래스의 다중 헤드 어텐션 맵은 특징과 그 위치를 보여줍니다. 구현 측면에서 Prompt-CAM은 Visual Prompt Tuning (VPT)의 예측 헤드를 수정하는 것만으로도 충분하며, 다른 해석 가능한 방법들과 달리 특정 모델과 훈련 과정을 설계할 필요가 없어 쉽게 훈련하고 적용할 수 있습니다. 다양한 도메인(조류, 어류, 곤충, 균류, 꽃, 음식, 자동차 등)의 12개 데이터셋에 대한 광범위한 실험 연구를 통해 Prompt-CAM의 우수한 해석 능력을 검증했습니다. 소스 코드와 데모는 https://github.com/Imageomics/Prompt_CAM 에서 이용 가능합니다.