대규모 언어 모델(LLM)은 AI 혁신에 큰 영향을 미쳤지만, 텍스트 정보 처리에 특화되어 있다는 한계가 있습니다. 이러한 한계를 극복하기 위해, 연구자들은 시각적 능력을 LLM과 통합하여 Vision-Language Models(VLM)을 개발했습니다. 이 논문은 VLM 분야의 주요 발전을 다루며, 시각-언어 이해 모델, 단일 모달(텍스트) 출력을 생성하는 멀티모달 입력 처리 모델, 멀티모달 입력 및 출력을 모두 처리하는 모델의 세 가지 범주로 분류합니다. 각 모델의 아키텍처, 훈련 데이터, 강점 및 약점을 분석하고, 다양한 벤치마크 데이터 세트에서의 성능을 평가합니다.