본 논문은 멀티모달 대규모 언어 모델(MLLM)에서 사전 훈련된 Vision Transformer(ViT)의 시각적 레이어 선택에 대한 첫 번째 포괄적인 연구를 제시한다. 기존 연구와 달리, 딥 레이어 편향이 원리적 분석보다는 경험적 관행에 의해 주도된다는 점에 주목하여, ViT 레이어의 표현 유사성을 분석하고 얕은, 중간, 깊은 레이어 그룹을 설정했다. 다양한 MLLM(1.4B-7B 파라미터)에 대한 광범위한 평가를 통해, 딥 레이어는 OCR과 같은 의미 풍부한 작업에서 뛰어나지만, 얕은 및 중간 레이어는 개수 세기, 위치 지정, 객체 localization과 같은 세밀한 시각적 작업에서 더 우수함을 발견했다. 이러한 통찰력을 바탕으로, 얕은 레이어를 전략적으로 통합하는 가벼운 특징 융합 방법을 제안하여, 단일 레이어 및 특수 융합 기반보다 일관된 성능 향상을 달성했다.