Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

OuroMamba: A Data-Free Quantization Framework for Vision Mamba Models

Created by
  • Haebom
Category
Empty

저자

Akshat Ramachandran, Mingyu Lee, Huan Xu, Souvik Kundu, Tushar Krishna

개요

OuroMamba는 비전 Mamba 기반 모델(VMM)을 위한 최초의 데이터 없는 사후 훈련 양자화(DFQ) 방법입니다. 기존의 DFQ를 VMM에 적용하는 데 어려움이 있었는데, 이는 VMM의 순환 상태 전이가 장거리 상호 작용을 포착하는 것을 제한하여 의미론적으로 약한 합성 데이터를 생성하고, VMM 활성화가 시간 단계에 따라 동적으로 이상치 변동을 보이기 때문입니다. OuroMamba는 이러한 문제를 해결하기 위해 두 단계 프레임워크를 제시합니다. 첫째, 의미론적으로 풍부하고 의미 있는 합성 데이터를 생성하는 OuroMamba-Gen은 잠재 상태 공간에서 이웃 상호 작용을 통해 생성된 패치 수준 VMM 특징에 대조 학습을 적용합니다. 둘째, OuroMamba-Quant는 추론 중에 경량 동적 이상치 감지를 사용하는 혼합 정밀도 양자화를 사용합니다. 시간 단계마다 업데이트되는 임계값 기반 이상치 채널 선택 전략을 제시합니다. 다양한 비전 및 생성 작업에 대한 광범위한 실험 결과, OuroMamba는 기존의 데이터 기반 PTQ 기법을 능가하여 다양한 양자화 설정에서 최첨단 성능을 달성했습니다. 또한 효율적인 GPU 커널을 구현하여 최대 2.36배의 실질적인 지연 시간 속도 향상을 달성했습니다.

시사점, 한계점

시사점:
VMM에 대한 최초의 데이터 없는 사후 훈련 양자화(DFQ) 방법 제시.
기존 데이터 기반 PTQ 기법을 능가하는 성능 달성.
최대 2.36배의 지연 시간 속도 향상.
의미론적으로 풍부한 합성 데이터 생성 방법 제시.
효율적인 동적 이상치 감지 기법 제시.
한계점:
현재 코드 공개 전.
다양한 VMM 아키텍처 및 작업에 대한 일반화 성능에 대한 추가 연구 필요.
제안된 방법의 견고성에 대한 추가 평가 필요.
👍