This page organizes papers related to artificial intelligence published around the world. This page is summarized using Google Gemini and is operated on a non-profit basis. The copyright of the paper belongs to the author and the relevant institution. When sharing, simply cite the source.
ProtoPFormer: Concentrating on Prototypical Parts in Vision Transformers for Interpretable Image Recognition
Created by
Haebom
Category
Empty
저자
Mengqi Xue, Qihan Huang, Haofei Zhang, Jingwen Hu, Jie Song, Mingli Song, Canghong Jin
개요
ProtoPNet을 ViT (Vision Transformer) 백본에 적용했을 때, 배경에 의해 활성화되는 "distraction" 문제를 해결하기 위해 ProtoPFormer를 제안합니다. ProtoPFormer는 글로벌 및 로컬 프로토타입을 도입하여 ViT의 구조적 특징에 따라 객체의 전체 및 부분 특징을 캡처하고 강조합니다. 글로벌 프로토타입은 배경의 영향을 제거하면서 로컬 프로토타입이 전경에 집중하도록 안내하고, 로컬 프로토타입은 각 프로토타입 시각적 부분에 집중하도록 명시적으로 감독됩니다. 실험 결과, ProtoPFormer는 SOTA 프로토타입 기반 방법보다 우수한 성능과 시각화 결과를 보였습니다.
시사점, 한계점
•
ViT 기반 ProtoPNet의 해석 가능성 저해 요인인 "distraction" 문제 해결.
•
글로벌 및 로컬 프로토타입을 통해 전체 및 부분 관점에서 투명하고 충실하게 의사 결정 과정을 설명.