본 논문은 시각-언어 데이터를 처리할 때 다중 모달 대규모 언어 모델(MLLM)이 텍스트 입력에 대한 선호도를 보이는 현상을 분석합니다. 기존 연구와 달리, 모델의 내부 구조적 문제에서 기인한다고 주장하며, 특히 시각적 키 벡터(Visual Keys)가 언어 전용 사전 훈련을 통해 학습된 텍스트 키 공간과 Out-of-Distribution(OOD) 관계에 있다고 가설을 세웁니다. LLaVA와 Qwen2.5-VL 모델의 키 벡터를 추출하여 t-SNE 및 Jensen-Shannon divergence 방법을 통해 분석한 결과, 시각 및 텍스트 키가 주의 공간 내에서 뚜렷하게 다른 하위 공간을 차지한다는 것을 확인했습니다. 이러한 결과는 텍스트 편향이 외부 데이터 요소뿐만 아니라 어텐션 키 공간 내의 내부적인 불일치에서 발생함을 시사합니다.