본 논문은 비전-언어 사전 학습(vision-language pretraining) 모델(VLMs)의 일반화(generalization) 문제를 다룬다. 웹 규모의 데이터를 활용한 VLMs는 제로샷(zero-shot) 성능이 뛰어나지만, 특정 도메인이나 전문적인 작업에서는 성능이 저하되는 한계를 지닌다. 이를 해결하기 위한 연구가 활발히 진행되는 가운데, 본 논문은 VLMs의 지식을 다양한 하위 작업에 전이(transfer)하거나 일반화하는 방법들을 종합적으로 분석한다. VLMs의 구조에 따라 프롬프트 기반, 매개변수 기반, 특징 기반 방법으로 분류하고, 각 방법의 차이점과 특징을 전이 학습(TL) 설정을 바탕으로 논의한다. 또한, VLM 일반화를 위한 벤치마크를 소개하고, 검토된 방법들의 성능을 비교 분석하며, 최근 등장하는 다중 모달 대규모 언어 모델(MLLM)과 VLMs의 관계와 차이점도 논의한다. 결론적으로, 본 논문은 비전-언어 연구 분야의 최신 동향을 일반화 관점에서 체계적으로 검토하여 현황과 미래 연구 방향을 제시한다.