Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Dynamic Vision Mamba

Created by
  • Haebom

저자

Mengxuan Wu, Zekai Li, Zhiyuan Liang, Moyang Li, Xuanlei Zhao, Samir Khaki, Zheng Zhu, Xiaojiang Peng, Konstantinos N. Plataniotis, Kai Wang, Wangbo Zhao, Yang You

개요

Mamba 기반 비전 모델은 어텐션 기반 모델보다 계산 효율성이 높다는 점에서 많은 주목을 받고 있습니다. 그러나 토큰 및 블록 중복성으로 나타나는 공간적 중복성이 여전히 존재합니다. 본 논문에서는 토큰 중복성에 대해 초기 토큰 가지치기 방법이 훈련과 추론 간의 불일치를 초래하거나 추론을 위한 추가 계산을 도입한다는 점을 분석적으로 밝혔습니다. 따라서 가지치기된 시퀀스를 다음 Mamba 블록에 입력하기 전에 재배열하여 Mamba 구조에 맞게 토큰 가지치기를 사용자 정의했습니다. 블록 중복성에 대해서는 Mamba 기반 비전 모델의 추론 속도가 SSM 블록 수의 영향을 크게 받는다는 경험적 관찰에 기반하여 각 이미지가 SSM 블록을 동적으로 선택하도록 허용했습니다. 제안된 방법인 Dynamic Vision Mamba (DyVM)는 성능 저하가 거의 없이 FLOP를 효과적으로 줄입니다. Vim-S에서 정확도 손실이 1.7%에 불과한 상태에서 FLOP를 35.2% 감소시켰습니다. 또한 다양한 Mamba 비전 모델 아키텍처와 비전 작업에 잘 일반화됩니다. 코드는 공개될 예정입니다.

시사점, 한계점

시사점:
Mamba 기반 비전 모델의 계산 효율성을 더욱 향상시키는 새로운 방법 제시.
토큰 및 블록 중복성 문제에 대한 효과적인 해결책 제시.
다양한 아키텍처와 작업에 대한 일반화 성능 우수.
FLOP 감소량 대비 정확도 저하가 적음.
한계점:
제안된 방법의 효과는 특정 데이터셋 (Vim-S) 에서 평가되었으며, 다른 데이터셋에서의 일반화 성능은 추가 연구가 필요함.
코드 공개 이후 실제 사용 환경에서의 성능 평가 및 추가적인 검증이 필요함.
👍