Investigating Redundancy in Multimodal Large Language Models with Multiple Vision Encoders
Created by
Haebom
저자
Yizhou Wang, Song Mao, Yang Chen, Yufan Shen, Yinqiao Yan, Pinlong Cai, Ding Wang, Guohang Yan, Zhi Yu, Xuming Hu, Botian Shi
개요
다중 모달 대형 언어 모델(MLLM)은 다양한 시각적 신호를 얻기 위해 여러 비전 인코더를 통합하지만, 실제로는 인코더 중복이 발생하여 성능 향상에 기여하지 못함을 발견했습니다. 본 연구는 인코더 마스킹을 통해 이러한 중복성을 확인하고, Conditional Utilization Rate (CUR) 및 Information Gap (IG)를 통해 인코더의 기여도와 효율성을 측정했습니다. 그 결과, 특정 태스크에서 단일 인코더가 우세하고, 일반적인 VQA 및 지식 기반 태스크에서는 인코더 간 상호 교환이 가능하다는 점을 확인했습니다. 또한, 특정 인코더를 마스킹하면 전체 모델보다 더 높은 정확도를 얻을 수 있음을 보였습니다.
시사점, 한계점
•
시사점:
◦
다중 인코더를 사용하는 MLLM의 효율성 문제를 제기하고, 더 많은 인코더가 항상 성능 향상을 보장하지 않음을 밝힘.