Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Investigating Redundancy in Multimodal Large Language Models with Multiple Vision Encoders

Created by
  • Haebom

저자

Yizhou Wang, Song Mao, Yang Chen, Yufan Shen, Yinqiao Yan, Pinlong Cai, Ding Wang, Guohang Yan, Zhi Yu, Xuming Hu, Botian Shi

개요

다중 모달 대형 언어 모델(MLLM)은 다양한 시각적 신호를 얻기 위해 여러 비전 인코더를 통합하지만, 실제로는 인코더 중복이 발생하여 성능 향상에 기여하지 못함을 발견했습니다. 본 연구는 인코더 마스킹을 통해 이러한 중복성을 확인하고, Conditional Utilization Rate (CUR) 및 Information Gap (IG)를 통해 인코더의 기여도와 효율성을 측정했습니다. 그 결과, 특정 태스크에서 단일 인코더가 우세하고, 일반적인 VQA 및 지식 기반 태스크에서는 인코더 간 상호 교환이 가능하다는 점을 확인했습니다. 또한, 특정 인코더를 마스킹하면 전체 모델보다 더 높은 정확도를 얻을 수 있음을 보였습니다.

시사점, 한계점

시사점:
다중 인코더를 사용하는 MLLM의 효율성 문제를 제기하고, 더 많은 인코더가 항상 성능 향상을 보장하지 않음을 밝힘.
CUR 및 IG 지표를 통해 인코더의 기여도와 중복성을 정량적으로 분석하는 방법을 제시.
특정 인코더를 마스킹하여 모델 성능을 향상시킬 수 있음을 입증.
MLLM 개발 시 효율적인 아키텍처 설계를 위한 진단 정보를 제공.
한계점:
특정 모델과 태스크에 대한 실험 결과에 기반하여 일반화의 제한이 있을 수 있음.
개선된 아키텍처 설계에 대한 구체적인 제안은 제시되지 않음.
인코더 간 상호 작용 및 동적 활용에 대한 추가적인 연구가 필요함.
👍