LQA: A Lightweight Quantized-Adaptive Framework for Vision-Language Models on the Edge

Created by

Haebom

저자

Xin Wang, Hualin Zhou, Sheng Guang Wang, Ting Dang, Yu Zhang, Hong Jia, Tao Gu

💡 개요

본 논문은 엣지 디바이스의 자원 제약과 분포 변화에 따른 성능 저하 문제를 해결하기 위해 LQA라는 경량 양자화 적응 프레임워크를 제안합니다. LQA는 모달리티 인식 양자화 전략과 그래디언트 없는 테스트 시간 적응을 결합하여, 자원 제약적인 하드웨어에서도 강력하고 효율적인 VLM 배포를 가능하게 합니다. 실험 결과, LQA는 전반적인 적응 성능을 4.5% 향상시키고 메모리 사용량을 크게 줄여, 엣지 디바이스에서의 VLM 배포를 위한 실용적인 해결책을 제시합니다.

🔑 시사점 및 한계

•

엣지 디바이스 환경에서 Vision-Language Models(VLMs)의 성능 저하 문제를 효과적으로 해결할 수 있는 경량 프레임워크를 제공합니다.

•

그래디언트 없는 테스트 시간 적응 기법과 모달리티 인식 양자화를 결합하여, 자원 제약적인 환경에서도 높은 적응 성능과 효율성을 달성합니다.

•

제안된 LQA 프레임워크는 기존의 그래디언트 기반 TTA 방법 대비 메모리 사용량을 획기적으로 줄여 엣지 AI 배포의 실용성을 높입니다.

•

향후 연구에서는 다양한 엣지 디바이스 아키텍처에 대한 최적화 및 더욱 복잡한 분포 변화 시나리오에 대한 적용 가능성을 탐색할 필요가 있습니다.

PDF 보기

Made with Slashpage