본 논문은 사전 훈련된 양자화(PTQ)를 비전-언어 모델(VLM)에 적용하는 방법을 제시합니다. 기존의 PTQ 방법들은 대규모 언어 모델(LLM)에 초점을 맞춰 모든 토큰을 동일하게 처리하지만, VLM은 시각 토큰이 과도하고 중복되어 성능 저하가 발생합니다. 따라서 본 논문에서는 VLM에 최적화된 새로운 중요도 인식 PTQ 프레임워크인 VLMQ를 제안합니다. VLMQ는 토큰 수준의 중요도 요소를 고려하여 Hessian 행렬을 개선하고, 경량화된 블록 단위 역전파를 통해 효율적으로 중요도 요소를 계산합니다. 8개의 벤치마크와 0.5B~32B 크기의 VLM에 대한 실험 결과, VLMQ는 특히 저비트 양자화 환경에서 최첨단 성능을 달성함을 보여줍니다. 예를 들어, 2비트 양자화에서 MME-RealWorld 벤치마크에서 16.45%의 성능 향상을 달성했습니다.