Dans cet article, nous présentons un nouvel ensemble de données de compréhension de scènes extérieures à grande échelle, SVM-City, qui contient des données multimodales obtenues à partir de plusieurs capteurs et de plusieurs points de vue (vues aériennes et au sol) afin de surmonter les limites des modèles de langage visuel à grande échelle (LVLM) centrés sur l'intérieur. SVM-City se compose de 420 000 images collectées à partir de véhicules, de drones à basse altitude, d'avions à haute altitude et de satellites, de 48,11 millions de nuages de points et de 567 000 paires questions-réponses. De plus, nous concevons un nouveau LVLM, City-VLM, en introduisant une technique d'apprentissage multimodal incomplète pour fusionner efficacement les données multimodales même lorsqu'une modalité est manquante. City-VLM effectue la fusion multimodale en construisant un espace de distribution de probabilités conjoint au lieu d'une opération de fusion explicite. Les résultats expérimentaux sur trois tâches représentatives de compréhension de scènes extérieures montrent que City-VLM réalise en moyenne 18,14 % de meilleures performances sur les tâches de questions-réponses que les LVLM existants, démontrant des performances pratiques et généralisables dans diverses scènes extérieures.