본 논문은 지역적, 역사적, 사회적, 기술적 맥락에 따라 다양한 스타일을 보이는 건축 문화에 대한 연구를 제시합니다. 기존의 주관적인 전문가 해석과 문헌 검토에 의존하는 연구의 한계를 극복하기 위해, 1,765개의 고품질 건축 이미지와 스타일 주석으로 구성된 ArchDiffBench 데이터셋을 구축하고, 비전-언어 모델 기반의 분석 프레임워크인 ArchiLense를 제안합니다. ArchiLense는 컴퓨터 비전, 딥러닝, 머신러닝 알고리즘을 통합하여 건축 이미지의 자동 인식, 비교, 정확한 분류를 수행하며, 스타일 차이를 설명하는 기술적 언어 출력을 생성합니다. 실험 결과, ArchiLense는 전문가 주석과 92.4% 일치율, 84.5% 분류 정확도를 달성하여 건축 스타일 인식에서 우수한 성능을 보였습니다.