Faster Vision Mamba is Rebuilt in Minutes via Merged Token Re-training
Created by
Haebom
저자
Mingjia Shi, Yuhao Zhou, Ruiji Yu, Zekai Li, Zhiyuan Liang, Xuanlei Zhao, Xiaojiang Peng, Shanmukha Ramakrishna Vedantam, Wangbo Zhao, Kai Wang, Yang You
개요
Vision Mamba의 효율성을 높이기 위한 연구로, 토큰 감소 기법을 적용했습니다. 기존의 토큰 제거 방식은 성능 저하를 야기하는 반면, 토큰 병합 방식은 정보 손실을 줄이지만 높은 압축률에서는 성능이 저하됩니다. 본 연구는 토큰 병합 후 빠른 재훈련을 통해 다양한 압축률에서 견고한 성능을 얻는 방법을 제시합니다. ImageNet-1K에서 토큰이 제거된 Vim의 정확도 저하(최대 0.9%)를 제안된 R-MeeTo 프레임워크로 회복시켰으며, Vim-Ti의 경우 3 epoch의 재훈련으로 35.9%의 정확도 향상을 달성했습니다. Vim-Ti/S/B는 각각 5/7/17분 내에 재훈련되었고, Vim-S는 1.2배(최대 1.5배)의 추론 속도 향상과 함께 1.3%의 정확도 저하만 보였습니다.
시사점, 한계점
•
시사점:
◦
토큰 병합 후 재훈련을 통해 Vision Mamba의 효율성을 크게 향상시킬 수 있음을 보여줌.