Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Faster Vision Mamba is Rebuilt in Minutes via Merged Token Re-training

Created by
  • Haebom

저자

Mingjia Shi, Yuhao Zhou, Ruiji Yu, Zekai Li, Zhiyuan Liang, Xuanlei Zhao, Xiaojiang Peng, Shanmukha Ramakrishna Vedantam, Wangbo Zhao, Kai Wang, Yang You

개요

Vision Mamba의 효율성을 높이기 위한 연구로, 토큰 감소 기법을 적용했습니다. 기존의 토큰 제거 방식은 성능 저하를 야기하는 반면, 토큰 병합 방식은 정보 손실을 줄이지만 높은 압축률에서는 성능이 저하됩니다. 본 연구는 토큰 병합 후 빠른 재훈련을 통해 다양한 압축률에서 견고한 성능을 얻는 방법을 제시합니다. ImageNet-1K에서 토큰이 제거된 Vim의 정확도 저하(최대 0.9%)를 제안된 R-MeeTo 프레임워크로 회복시켰으며, Vim-Ti의 경우 3 epoch의 재훈련으로 35.9%의 정확도 향상을 달성했습니다. Vim-Ti/S/B는 각각 5/7/17분 내에 재훈련되었고, Vim-S는 1.2배(최대 1.5배)의 추론 속도 향상과 함께 1.3%의 정확도 저하만 보였습니다.

시사점, 한계점

시사점:
토큰 병합 후 재훈련을 통해 Vision Mamba의 효율성을 크게 향상시킬 수 있음을 보여줌.
빠른 재훈련(수 분 이내)으로도 괄목할 만한 성능 향상을 달성 가능함.
추론 속도 향상과 정확도 저하 최소화를 동시에 달성 가능함.
한계점:
제안된 방법의 일반화 성능에 대한 추가적인 검증 필요.
다양한 비전 모델에 대한 적용 가능성 및 효과에 대한 추가 연구 필요.
재훈련에 필요한 계산 비용 및 에너지 소모에 대한 분석 필요.
👍