Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MSVIT: Improving Spiking Vision Transformer Using Multi-scale Attention Fusion

Created by
  • Haebom

저자

Wei Hua, Chenlin Zhou, Jibin Wu, Yansong Chua, Yangyang Shu

개요

스파이크 신경망(SNN) 기반 비전 트랜스포머 구조는 에너지 효율적이고 고성능 컴퓨팅 패러다임으로 주목받고 있지만, 기존 ANN 기반 트랜스포머와의 성능 차이가 존재합니다. 본 논문에서는 다양한 이미지 스케일에서 특징을 효과적으로 추출하는 데 어려움을 겪는 기존 SNN 기반 트랜스포머 구조의 문제점을 해결하기 위해, 다중 스케일 스파이킹 어텐션(MSSA)을 사용하는 새로운 스파이크 기반 트랜스포머 구조인 MSVIT를 제안합니다. MSVIT은 다양한 주요 데이터셋에서 기존 SNN 기반 모델들을 능가하는 성능을 보이며, SNN-트랜스포머 구조에서 최첨단 성능을 달성합니다. 소스 코드는 https://github.com/Nanhu-AI-Lab/MSViT 에서 확인 가능합니다.

시사점, 한계점

시사점:
다중 스케일 스파이킹 어텐션(MSSA)을 통해 SNN 기반 비전 트랜스포머의 성능 향상을 달성했습니다.
기존 SNN-트랜스포머 구조에서 최첨단 성능을 기록했습니다.
SNN 기반 비전 트랜스포머 연구에 새로운 가능성을 제시했습니다.
한계점:
제시된 방법의 일반화 성능에 대한 추가적인 연구가 필요합니다.
다양한 하드웨어 플랫폼에서의 에너지 효율성 평가가 필요합니다.
다른 유형의 스파이킹 신경망이나 트랜스포머 구조와의 비교 분석이 부족할 수 있습니다.
👍