Vision Token Reduction via Attention-Driven Self-Compression for Efficient Multimodal Large Language Models

Created by

Haebom

저자

Omer Faruk Deniz, Ruiyu Mao, Ruochen Li, Yapeng Tian, Latifur Khan

💡 개요

본 논문은 멀티모달 대규모 언어 모델(MLLM)에서 발생하는 높은 연산 비용 문제를 해결하기 위해, LLM 자체를 압축의 가이드로 활용하는 새로운 접근 방식을 제안합니다. 제안된 Attention-Driven Self-Compression (ADSC) 기법은 LLM의 어텐션 메커니즘만을 사용하여 점진적으로 비전 토큰 수를 줄이며, 이를 통해 정보 재구성 및 압축을 유도합니다. ADSC는 추가적인 모듈이나 복잡한 점수 계산 없이 기존 LLM 및 FlashAttention과 완벽하게 호환되면서도 효율성과 성능을 동시에 향상시킵니다.

🔑 시사점 및 한계

•

LLM의 깊은 레이어에서 자연스럽게 발생하는 비전-텍스트 정보 전달 특성을 활용하여, 별도의 토큰 중요도 평가 없이도 효과적인 토큰 압축이 가능함을 입증했습니다.

•

기존의 사전 LLM 또는 휴리스틱 기반 토큰 제거 방식 대비, ADSC가 더 높은 일반성과 효율성, 그리고 정확도를 달성한다는 것을 보여주었습니다. 특히 높은 압축률에서도 성능 저하가 적다는 장점을 가집니다.

•

제안된 ADSC는 특정 레이어에서의 균일한 토큰 다운샘플링을 통해 병목 현상을 유도하는데, 향후 연구에서는 압축 비율 및 다운샘플링 위치를 동적으로 조절하여 성능을 더욱 최적화할 수 있을 것입니다.

PDF 보기

Made with Slashpage