本文首次全面研究了多模态大规模语言模型 (MLLM) 中预训练视觉变换器 (ViT) 的视觉层选择。与以往研究不同,我们注意到深层偏差是由经验实践而非理论分析驱动的。因此,我们分析了 ViT 层的表征相似性,并建立了浅层、中层和深层组。通过对各种 MLLM(参数范围从 1.4B 到 7B)进行广泛评估,我们发现深层在 OCR 等语义任务中表现出色,而浅层和中层则在计数、定位和对象定位等细节视觉任务中表现更佳。基于此洞察,我们提出了一种轻量级特征融合方法,该方法策略性地集成了浅层,与单层和基于专门融合的方法相比,实现了持续的性能提升。