본 논문은 비전 임베딩과 대규모 언어 모델(LLM) 간의 정렬을 개선하여 다중 모달 LLM(MLLM)의 성능을 향상시키는 방법을 제시합니다. 기존의 접근 방식은 비전 인코더 뒤에 프로젝터를 적용하여 LLM과 연결하는 것이지만, 이 프로젝터는 주로 캡션 생성을 위해 훈련되므로 LLM이 각 비전 토큰을 이해하는 메커니즘이 불분명합니다. 본 논문에서는 프로젝터가 비전 임베딩을 압축하고 단어 임베딩과 정렬하는 역할을 조사하고, 패치 수준 정렬(각 비전 패치와 해당 의미 단어 간의 정렬)을 분석하여 다중 의미 정렬 가설을 제안합니다. 캡션 손실로 훈련된 프로젝터는 패치 수준 정렬을 향상시키지만 제한적이며, 이를 해결하기 위해 패치 정렬 훈련을 제안합니다. 실험 결과, 패치 정렬 훈련은 더 강력한 압축 성능과 향상된 패치 수준 정렬을 달성하여 고품질 캡션 생성, 참조 표현 접지 작업에서 16%, 질문 응답 작업에서 4%, 최신 지시 따르기 벤치마크에서 3%의 성능 향상을 보였습니다.