본 논문은 중국의 베이징과 선전을 대상으로 도시 거리 풍경의 변화를 연구하기 위해 시각-언어 모델 기반의 다중 모드 연구 프레임워크를 제시합니다. 기존의 전문가 해석 및 역사적 기록에 의존하는 방식의 한계를 극복하고, 객관적이고 데이터 중심적인 도시 형태 연구를 가능하게 하기 위해, 다양한 시대와 지역의 건축 이미지를 포함하는 도시 거리 풍경 데이터셋 UrbanDiffBench를 구축하고, 이를 분석하는 시각-언어 모델 기반 프레임워크 UrbanSense를 개발했습니다. UrbanSense는 도시 스타일 표현을 정량적으로 생성하고 비교하며, 실험 결과 80% 이상의 생성된 설명이 t-검정을 통과하고 높은 Phi 점수를 기록하여 미묘한 스타일 차이를 포착하는 능력을 확인했습니다. 이는 도시 스타일 진화를 정량화하고 해석하는 잠재력을 보여주는 결과입니다.