본 논문은 도시의 사회경제적 조건을 위성 및 거리뷰 이미지로부터 예측하는 대규모 언어-비전 모델(LLVM)의 성능을 평가하기 위한 포괄적인 벤치마크인 CityLens를 제시합니다. CityLens는 전 세계 17개 도시를 포함하는 다중 모달 데이터셋을 구축하여 경제, 교육, 범죄, 교통, 보건, 환경 등 6개 주요 영역에 걸쳐 11개의 예측 과제를 정의하고 직접 측정 예측, 정규화된 측정 추정, 특징 기반 회귀라는 세 가지 평가 패러다임을 활용합니다. 17개의 최첨단 LLM을 벤치마킹한 결과, LLM이 유망한 지각 및 추론 능력을 보여주지만 도시 사회경제 지표 예측에는 여전히 한계가 있음을 보여줍니다. CityLens는 이러한 한계를 진단하고 LLM을 사용하여 도시 사회경제적 패턴을 이해하고 예측하기 위한 미래의 노력을 안내하는 통합 프레임워크를 제공하며, 코드와 데이터셋은 공개되었습니다.