Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Prompt-CAM: Making Vision Transformers Interpretable for Fine-Grained Analysis

Created by
  • Haebom

저자

Arpita Chowdhury, Dipanjyoti Paul, Zheda Mai, Jianyang Gu, Ziheng Zhang, Kazi Sajeed Mehrab, Elizabeth G. Campolongo, Daniel Rubenstein, Charles V. Stewart, Anuj Karpatne, Tanya Berger-Wolf, Yu Su, Wei-Lun Chao

개요

본 논문은 사전 훈련된 비전 트랜스포머(ViTs)의 해석성을 향상시키는 간단한 방법인 Prompt-CAM을 제시합니다. 특히, 새 종류와 같이 시각적으로 유사한 범주를 구별하는 특징을 식별하고 지역화하는 것을 목표로 합니다. 기존의 Grad-CAM과 같은 방법은 전체 객체를 강조하는 흐릿한 히트맵을 생성하는 반면, Prompt-CAM은 사전 훈련된 ViT에 클래스별 프롬프트를 학습하고 해당 출력을 분류에 사용하여 진짜 클래스 프롬프트가 다른 클래스 이미지에는 없는 고유한 이미지 패치(즉, 특징)에 주목해야만 정확하게 이미지를 분류할 수 있도록 합니다. 결과적으로, 진짜 클래스의 다중 헤드 어텐션 맵은 특징과 그 위치를 보여줍니다. 구현 측면에서 Prompt-CAM은 Visual Prompt Tuning (VPT)의 예측 헤드를 수정하는 것만으로도 충분하며, 다른 해석 가능한 방법들과 달리 특정 모델과 훈련 과정을 설계할 필요가 없어 쉽게 훈련하고 적용할 수 있습니다. 다양한 도메인(조류, 어류, 곤충, 균류, 꽃, 음식, 자동차 등)의 12개 데이터셋에 대한 광범위한 실험 연구를 통해 Prompt-CAM의 우수한 해석 능력을 검증했습니다. 소스 코드와 데모는 https://github.com/Imageomics/Prompt_CAM 에서 이용 가능합니다.

시사점, 한계점

시사점:
사전 훈련된 ViT의 해석성을 향상시키는 간편하고 효과적인 방법 제시
시각적으로 유사한 범주를 구별하는 특징의 식별 및 지역화 가능
Visual Prompt Tuning(VPT)을 기반으로 구현되어 추가적인 모델 설계 및 복잡한 훈련 과정이 필요 없음
다양한 도메인의 데이터셋에서 우수한 성능 검증
한계점:
본 논문에서 제시된 한계점은 명시적으로 언급되어 있지 않음. 향후 연구를 통해 추가적인 개선 및 한계점 규명이 필요할 수 있음.
👍