본 논문은 최근 발전하고 있는 자동회귀 다중모드 대규모 언어 모델(MLLM)에서의 시각-언어 작업에 대한 연구를 다룬다. 특히, MLLM 내부의 작동 메커니즘과 언어 및 시각 정보가 어떻게 상호 작용하는지에 대한 이해를 높이기 위해 시각적 질문 응답(VQA) 과제에 집중하여 연구를 진행했다. LLaVA 시리즈 모델을 사용하여 실험한 결과, 두 가지 모달리티(언어 및 시각) 통합 과정에서 두 가지 뚜렷한 단계가 있음을 발견했다. 낮은 층에서는 전체 이미지의 일반적인 시각적 특징을 질문 토큰의 표현으로 전달하고, 중간 층에서는 질문과 관련된 특정 개체에 대한 시각 정보를 질문의 해당 토큰 위치로 전달한다. 마지막으로, 상위 층에서는 생성된 다중 모달리티 표현이 최종 예측을 위해 입력 시퀀스의 마지막 위치로 전파된다. 이 연구는 MLLM에서 이미지와 언어 처리의 공간적 및 기능적 측면에 대한 새로운 관점을 제공하여 향후 다중 모달리티 정보의 위치 파악 및 편집 연구를 위한 기반을 마련한다. 코드와 데이터셋은 공개되었다.