Breaking Modality Heterogeneity in Low-Bit Quantization for Large Vision-Language Models

작성자

Haebom

카테고리

Empty

저자

Yi Zhong, Haotong Qin, Xindong Zhang, Lei Zhang, Guolei Sun

💡 개요

본 논문은 자원 제약이 있는 환경에서 Vision-Language Model(VLM)을 효율적으로 배포하기 위한 저비트 후학습 양자화(PTQ) 기법을 제안합니다. 기존 PTQ 방법은 텍스트와 비전 모달리티 간의 이질적인 활성화 분포로 인해 VLM의 정확도를 저하시키는 문제를 겪습니다. 이를 해결하기 위해 제안된 SplitQ는 모달리티별 특이값 채널을 효과적으로 분리하는 MOCD 모듈과 모달리티 간 분포 차이를 완화하는 ACC 모듈을 포함하는 채널 분할 기반 PTQ 프레임워크입니다.

🔑 시사점 및 한계

•

VLM의 모달리티 이질성을 효과적으로 관리하여 저비트 양자화 시 정확도 저하를 최소화하는 새로운 접근 방식을 제시합니다.

•

제안된 MOCD 및 ACC 모듈은 기존 방법 대비 뛰어난 성능을 보이며, W3A3과 같은 어려운 양자화 설정에서도 높은 정확도를 유지함을 입증합니다.

•

현재까지는 텍스트와 비전 모달리티에 국한된 접근 방식을 제안하며, 향후 더 다양한 모달리티를 포괄하는 연구가 필요할 수 있습니다.

PDF 보기

Made with Slashpage