Cet article aborde le problème de généralisation des modèles de pré-entraînement vision-langage (VLM). Les VLM utilisant des données web offrent d'excellentes performances en mode zéro-coup, mais présentent des limites : leurs performances se dégradent dans des domaines spécifiques ou des tâches spécialisées. Alors que des recherches actives sont menées pour résoudre ce problème, cet article analyse en détail les méthodes permettant de transférer ou de généraliser les connaissances des VLM à diverses sous-tâches. En nous basant sur la structure des VLM, nous les classons en méthodes basées sur les invites, les paramètres et les caractéristiques, et nous analysons les différences et les caractéristiques de chaque méthode en fonction du contexte d'apprentissage par transfert (TL). De plus, nous présentons un benchmark pour la généralisation des VLM, comparons et analysons les performances des méthodes examinées, et discutons de la relation et des différences entre les VLM et les modèles multimodaux à grande échelle (MLLM) récemment apparus. En conclusion, cet article passe en revue les dernières tendances de la recherche vision-langage du point de vue de la généralisation et suggère l'état actuel et les orientations futures de la recherche.