MSVIT: Improving Spiking Vision Transformer Using Multi-scale Attention Fusion
Created by
Haebom
저자
Wei Hua, Chenlin Zhou, Jibin Wu, Yansong Chua, Yangyang Shu
개요
스파이크 신경망(SNN) 기반 비전 트랜스포머 구조는 에너지 효율적이고 고성능 컴퓨팅 패러다임으로 주목받고 있지만, 기존 ANN 기반 트랜스포머와의 성능 차이가 존재합니다. 본 논문에서는 다양한 이미지 스케일에서 특징을 효과적으로 추출하는 데 어려움을 겪는 기존 SNN 기반 트랜스포머 구조의 문제점을 해결하기 위해, 다중 스케일 스파이킹 어텐션(MSSA)을 사용하는 새로운 스파이크 기반 트랜스포머 구조인 MSVIT를 제안합니다. MSVIT은 다양한 주요 데이터셋에서 기존 SNN 기반 모델들을 능가하는 성능을 보이며, SNN-트랜스포머 구조에서 최첨단 성능을 달성합니다. 소스 코드는 https://github.com/Nanhu-AI-Lab/MSViT 에서 확인 가능합니다.