En este artículo, presentamos un novedoso conjunto de datos de comprensión de escenas exteriores a gran escala, SVM-City, que contiene datos multimodales obtenidos de múltiples sensores y múltiples puntos de vista (vista aérea y a nivel del suelo) para superar las limitaciones de los modelos de lenguaje visual a gran escala (LVLM) existentes centrados en interiores. SVM-City consta de 420.000 imágenes recopiladas de vehículos, drones de baja altitud, aeronaves de gran altitud y satélites, 48,11 millones de nubes de puntos y 567.000 pares pregunta-respuesta. Además, diseñamos un nuevo LVLM, City-VLM, mediante la introducción de una técnica de aprendizaje multimodal incompleta para fusionar eficazmente los datos multimodales incluso cuando falta una modalidad. City-VLM realiza la fusión multimodal mediante la construcción de un espacio de distribución de probabilidad conjunto en lugar de una operación de fusión explícita. Los resultados experimentales en tres tareas representativas de comprensión de escenas al aire libre muestran que City-VLM tiene un rendimiento promedio un 18,14 % mejor en tareas de respuesta a preguntas que los LVLM existentes, lo que demuestra un rendimiento práctico y generalizable en varias escenas al aire libre.