Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders
Created by
Haebom
Category
Empty
저자
Min Shi, Fuxiao Liu, Shihao Wang, Shijia Liao, Subhashree Radhakrishnan, Yilin Zhao, De-An Huang, Hongxu Yin, Karan Sapra, Yaser Yacoob, Humphrey Shi, Bryan Catanzaro, Andrew Tao, Jan Kautz, Zhiding Yu, Guilin Liu
개요
본 논문은 다중 모드 대규모 언어 모델(MLLM)에서 복잡한 시각 정보 해석 능력 향상에 초점을 맞추고 있습니다. 기존 MLLM들이 다양한 비전 인코더 조합을 사용하지만, 체계적인 비교 및 상세한 ablation study가 부족하다는 점을 지적합니다. 본 연구는 다양한 비전 인코더 및 해상도 조합을 사용하는 MLLM 설계 공간을 광범위하게 탐구하여, 상호 보완적인 비전 인코더의 시각 토큰 연결이 복잡한 혼합 아키텍처보다 효과적임을 밝힙니다. 또한, 비전 중심 인코더와 언어 토큰 간의 차이를 해소하는 'Pre-Alignment' 기법을 도입하여 모델 일관성을 향상시켰습니다. 결과적으로 개발된 Eagle MLLM은 주요 MLLM 벤치마크에서 기존 최고의 오픈소스 모델들을 능가하는 성능을 보였습니다.
시사점, 한계점
•
시사점:
◦
상호 보완적인 비전 인코더의 단순 연결이 복잡한 혼합 아키텍처보다 효과적임을 제시.
◦
Pre-Alignment 기법을 통해 비전-언어 간의 일관성 향상 가능성을 보여줌.
◦
Eagle MLLM이 기존 오픈소스 모델 대비 우수한 성능을 달성.
◦
다양한 비전 인코더 및 해상도 조합에 대한 체계적인 연구를 통해 MLLM 설계 원리를 제시.
•
한계점:
◦
본 연구에서 제시된 방법론의 일반화 가능성에 대한 추가적인 검증 필요.
◦
특정 벤치마크에 대한 평가 결과이므로 다른 데이터셋이나 과제에 대한 성능은 추가 연구가 필요.