본 논문은 도시 보행 환경의 효율적인 평가를 위해 여러 데이터 소스를 통합하는 다중 모드 프레임워크인 WalkCLIP을 소개합니다. WalkCLIP은 GPT-4o로 생성된 이미지 캡션을 통해 보행 환경을 인식하는 시각-언어 표현을 학습하고, 공간 집계 모듈을 통해 인접 환경을 고려하며, 인구 통계 모델의 표현과 융합합니다. 미니애폴리스-세인트폴 지역의 4,660개 장소에서 평가한 결과, WalkCLIP은 단일 모드 및 다중 모드 기준선보다 예측 정확도와 공간적 정렬 측면에서 우수한 성능을 보였습니다.