본 논문은 시각 언어 모델(VLMs)에서의 텍스처 대 형태 편향 및 국소 정보의 우세와 같은 시각 전용 편향을 조사합니다. VLMs는 시각 인코더와 대규모 언어 모델(LLM)을 결합하여 언어 프롬프팅을 통해 시각 콘텐츠에 접근하는 직관적인 방법을 제공하지만, LLM과 시각 인코더 모두 고유한 편향, 큐 선호도 및 지름길을 가지고 있습니다. 본 연구는 이러한 편향이 다중 모드 융합에서 어떻게 작용하는지 조사하여, VLMs가 시각 인코더로부터 편향을 어느 정도 상속받는다는 것을 발견했습니다. 흥미롭게도 다중 모달리티 자체가 모델 동작에 중요한 영향을 미치며, 언어 기반 학습이 모델의 시각적 인식에 직접적인 영향을 미친다는 것을 보여줍니다. VLMs는 일반적인 시각 인코더와 달리 형태 정보를 기반으로 객체를 인식하는 경향이 있지만, 언어 프롬프트를 통한 형태 기반 분류로의 적극적인 조정은 제한적입니다. 반대로, 간단한 자연어 프롬프트를 통한 텍스처 기반 의사 결정으로의 적극적인 조정은 더 성공적입니다.