Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MQuant: Unleashing the Inference Potential of Multimodal Large Language Models via Full Static Quantization

Created by
  • Haebom

저자

JiangYong Yu, Sifan Zhou, Dawei Yang, Shuo Wang, Shuoyu Li, Xing Hu, Chen Xu, Zukang Xu, Changyong Shu, Zhihang Yuan

개요

본 논문은 다중 모달 대규모 언어 모델(MLLM)의 효율적인 추론을 위한 후훈련 양자화(PTQ) 프레임워크인 MQuant를 제안합니다. MLLM의 큰 매개변수 크기와 높은 계산 요구량으로 인해 실제 배포 및 적용이 어려운 문제를 해결하기 위해, MQuant는 모달 특정 정적 양자화(MSQ), 어텐션 불변 유연 전환(AIFS), 회전 크기 억제(RMS) 등의 기술을 도입하여 기존 PTQ 기준보다 우수한 성능을 달성합니다. MSQ는 시각 및 텍스트 토큰에 별도의 정적 스케일을 할당하고, AIFS는 토큰 순서를 재배열하여 캐주얼 어텐션을 유지하면서 계산 비용이 높은 토큰별 스케일 계산을 제거하며, RMS는 온라인 Hadamard 회전으로 인한 가중치 이상치를 완화합니다. Qwen-VL, MiniCPM-V, CogVLM2 등 다섯 가지 주요 MLLM에서 W4A8 하에 부동 소수점 정확도와 거의 동일한 성능(<1% 저하)을 유지하면서 추론 지연 시간을 최대 30%까지 줄이는 결과를 보였습니다. 소스 코드는 깃허브에 공개되었습니다.

시사점, 한계점

시사점:
MLLM의 효율적인 추론을 위한 새로운 PTQ 프레임워크 MQuant 제시
기존 PTQ의 한계점인 높은 추론 지연 시간, 시각 및 텍스트 토큰 간 분포 불일치, Hadamard 변환으로 인한 이상치 문제 해결
다양한 MLLM에서 부동 소수점 정확도에 근접한 성능과 추론 지연 시간 감소 달성 (최대 30%)
자원 제약 환경에서 MLLM 추론의 실용성 증대
소스 코드 공개를 통한 연구의 재현성 및 확장성 확보
한계점:
제안된 방법의 효과는 특정 MLLM과 양자화 설정(W4A8)에 국한될 수 있음. 다른 MLLM이나 양자화 설정에서의 일반화 성능은 추가 연구가 필요함.
현재 지원하는 MLLM의 종류가 제한적이며, 더 다양한 모델에 대한 적용성 검증이 필요함.
Hadamard 변환에 의존하는 MLLM에 특화된 방법으로, 다른 아키텍처를 가진 MLLM에는 적용이 어려울 수 있음.
👍