Este artículo aborda el problema de generalización de los modelos de preentrenamiento de visión-lenguaje (VLM). Los VLM que utilizan datos a escala web tienen un excelente rendimiento de disparo cero, pero presentan limitaciones debido a que su rendimiento se deteriora en dominios específicos o tareas especializadas. Mientras se lleva a cabo investigación activa para resolver este problema, este artículo analiza exhaustivamente los métodos para transferir o generalizar el conocimiento de los VLM a diversas subtareas. Con base en la estructura de los VLM, los clasificamos en métodos basados en indicaciones, basados en parámetros y basados en características, y discutimos las diferencias y características de cada método según el entorno de aprendizaje por transferencia (TL). Además, presentamos un punto de referencia para la generalización de VLM, comparamos y analizamos el rendimiento de los métodos revisados, y discutimos la relación y las diferencias entre los VLM y los recientemente emergentes modelos multimodales de lenguaje a gran escala (MLLM). En conclusión, este artículo revisa sistemáticamente las últimas tendencias en la investigación de visión-lenguaje desde una perspectiva de generalización y sugiere el estado actual y las futuras direcciones de investigación.