본 논문은 기존의 실내 중심 대규모 시각-언어 모델(LVLM)의 한계를 극복하고자, 다중 센서, 다중 관점(조감도 및 지상 관점)으로부터 얻어진 다중 모달리티 데이터를 포함하는 새로운 대규모 야외 장면 이해 데이터셋 SVM-City를 제시합니다. SVM-City는 차량, 저고도 드론, 고고도 항공기, 위성으로부터 수집된 42만 장의 이미지와 4,811백만 개의 점 구름, 그리고 56만7천 개의 질문-답변 쌍으로 구성됩니다. 또한, 하나의 모달리티가 누락된 경우에도 효과적으로 다중 모달리티 데이터를 융합하기 위해 불완전 다중 모달리티 학습 기법을 도입하여 City-VLM이라는 새로운 LVLM을 설계했습니다. City-VLM은 명시적인 융합 연산 대신 결합 확률 분포 공간을 구성하여 다중 모달리티 융합을 수행합니다. 세 가지 대표적인 야외 장면 이해 작업에 대한 실험 결과, City-VLM은 기존 LVLM에 비해 질문-답변 작업에서 평균 18.14% 향상된 성능을 보였으며, 다양한 야외 장면에서 실용적이고 일반화된 성능을 입증했습니다.