Sign In

LVLM-Compress-Bench: Benchmarking the Broader Impact of Large Vision-Language Model Compression

Created by
  • Haebom
Category
Empty

저자

Souvik Kundu, Anahita Bhiwandiwalla, Sungduk Yu, Phillip Howard, Tiep Le, Sharath Nittur Sridhar, David Cobbley, Hao Kang, Vasudev Lal

개요

본 논문은 다양한 압축 기법이 다중 모달 대규모 비전-언어 모델(LVLM)의 성능에 미치는 영향을 종합적으로 분석하는 LVLM-Compress-Bench 프레임워크를 제시한다. 자동 회귀 모델을 위한 두 가지 주요 압축 방식인 KV 캐시 압축과 가중치 압축을 고려하며, 다양한 최첨단 압축 기법(균일, 이상치 감소, 그룹 양자화 등)을 LLaVA 프레임워크의 네 가지 LVLM 변형에 적용한다. 10가지 다중 모달 데이터셋을 사용하여 인식, 지식, 언어 생성, 공간 인식, 시각적 추론, 환각 및 시각적 착각 식별, 독성, 고정관념 및 편향 등 다양한 측면에서 압축의 영향을 평가한다. 실제 및 합성 데이터셋을 활용하여 일반적인 성능 및 윤리적으로 중요한 지표에 대한 압축 효과를 분석하고, KV 및 가중치의 양자화 비용에 따른 LVLMs의 행동을 FP16 기준 모델과 비교한다. 소스 코드는 공개될 예정이다.

시사점, 한계점

시사점: 다중 모달 LVLMs에 대한 다양한 압축 기법의 영향을 체계적으로 분석하는 프레임워크를 제공한다. KV 캐시 및 가중치 압축에 대한 광범위한 실험 결과를 통해 성능 유지 및 손실에 대한 통찰력을 제공한다. 윤리적 측면(독성, 편향 등)까지 고려한 종합적인 평가를 수행한다.
한계점: LLaVA 프레임워크 기반의 특정 LVLM 변형에 대한 분석이므로 다른 모델 아키텍처로의 일반화 가능성은 제한적일 수 있다. 사용된 압축 기법의 종류가 제한적일 수 있다. 더욱 다양한 압축 기법 및 모델 아키텍처에 대한 추가 연구가 필요하다.
👍