본 논문은 비전-언어 모델(VLMs)의 배포에 있어 큰 메모리 및 계산 오버헤드 문제를 해결하기 위해, 사후 훈련 양자화(PTQ) 기법을 개선하는 연구를 제시합니다. 기존 PTQ 방법들이 언어 및 비전 토큰을 동일하게 다루는 것과 달리, 본 논문은 VLMs 내 언어 및 비전 토큰 간 민감도 차이를 발견하고, 이를 고려한 새로운 방법인 모달리티 균형 양자화(MBQ)를 제안합니다. MBQ는 보정 과정에서 모달리티 간 민감도 차이를 고려하여 재구성 손실을 최소화함으로써 더 나은 양자화 파라미터를 얻습니다. 실험 결과, MBQ는 기존 최고 성능 기법 대비 최대 4.4% 및 11.6%의 정확도 향상을 보였으며, W3 GPU 커널 구현을 통해 1.4배의 속도 향상을 달성했습니다.