Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MSVIT: Improving Spiking Vision Transformer Using Multi-scale Attention Fusion

Created by
  • Haebom

저자

Wei Hua, Chenlin Zhou, Jibin Wu, Yansong Chua, Yangyang Shu

개요

스파이킹 뉴럴 네트워크(SNN)와 비전 트랜스포머 아키텍처의 결합은 에너지 효율적이고 고성능 컴퓨팅 패러다임에 대한 잠재력으로 많은 관심을 받고 있지만, SNN 기반과 ANN 기반 트랜스포머 아키텍처 간에는 여전히 상당한 성능 차이가 존재합니다. 기존 연구에서는 SNN과 성공적으로 결합된 스파이킹 자기 주의 메커니즘을 제안했지만, 이러한 방법들이 제안하는 전체 아키텍처는 다양한 이미지 스케일에서 특징을 효과적으로 추출하는 데 병목 현상을 겪습니다. 본 논문에서는 이 문제를 해결하기 위해 다중 스케일 스파이킹 어텐션(MSSA)을 사용하여 스파이킹 어텐션 블록의 기능을 강화하는 새로운 스파이크 기반 트랜스포머 아키텍처인 MSVIT을 제안합니다. 다양한 주요 데이터 세트에서 접근 방식을 검증한 결과, MSVIT은 기존 SNN 기반 모델보다 우수한 성능을 보이며 SNN-트랜스포머 아키텍처에서 최첨단 솔루션으로 자리매김했습니다. 코드는 https://github.com/Nanhu-AI-Lab/MSViT 에서 확인할 수 있습니다.

시사점, 한계점

시사점: 다중 스케일 스파이킹 어텐션(MSSA)을 활용한 MSVIT 아키텍처는 기존 SNN 기반 트랜스포머 모델보다 우수한 성능을 보이며, SNN 기반 비전 트랜스포머 분야의 발전에 기여합니다. 에너지 효율적인 고성능 컴퓨팅을 위한 새로운 가능성을 제시합니다.
한계점: 본 논문에서 제시된 MSVIT의 성능 향상이 특정 데이터셋에 국한될 가능성이 있습니다. 다양한 데이터셋 및 작업에 대한 추가적인 실험이 필요합니다. MSSA의 복잡성 증가로 인한 연산량 증가에 대한 분석이 부족합니다.
👍