MSVIT: Improving Spiking Vision Transformer Using Multi-scale Attention Fusion
Created by
Haebom
저자
Wei Hua, Chenlin Zhou, Jibin Wu, Yansong Chua, Yangyang Shu
개요
스파이킹 뉴럴 네트워크(SNN)와 비전 트랜스포머 아키텍처의 결합은 에너지 효율적이고 고성능 컴퓨팅 패러다임에 대한 잠재력으로 많은 관심을 받고 있지만, SNN 기반과 ANN 기반 트랜스포머 아키텍처 간에는 여전히 상당한 성능 차이가 존재합니다. 기존 연구에서는 SNN과 성공적으로 결합된 스파이킹 자기 주의 메커니즘을 제안했지만, 이러한 방법들이 제안하는 전체 아키텍처는 다양한 이미지 스케일에서 특징을 효과적으로 추출하는 데 병목 현상을 겪습니다. 본 논문에서는 이 문제를 해결하기 위해 다중 스케일 스파이킹 어텐션(MSSA)을 사용하여 스파이킹 어텐션 블록의 기능을 강화하는 새로운 스파이크 기반 트랜스포머 아키텍처인 MSVIT을 제안합니다. 다양한 주요 데이터 세트에서 접근 방식을 검증한 결과, MSVIT은 기존 SNN 기반 모델보다 우수한 성능을 보이며 SNN-트랜스포머 아키텍처에서 최첨단 솔루션으로 자리매김했습니다. 코드는 https://github.com/Nanhu-AI-Lab/MSViT 에서 확인할 수 있습니다.