Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CityLens: Benchmarking Large Language-Vision Models for Urban Socioeconomic Sensing

Created by
  • Haebom

저자

Tianhui Liu, Jie Feng, Hetian Pang, Xin Zhang, Tianjian Ouyang, Zhiyuan Zhang, Yong Li

개요

본 논문은 도시의 사회경제적 조건을 위성 및 거리뷰 이미지로부터 예측하는 대규모 언어-비전 모델(LLVM)의 성능을 평가하기 위한 포괄적인 벤치마크인 CityLens를 제시합니다. CityLens는 전 세계 17개 도시를 포함하는 다중 모달 데이터셋을 구축하여 경제, 교육, 범죄, 교통, 보건, 환경 등 6개 주요 영역에 걸쳐 11개의 예측 과제를 정의하고 직접 측정 예측, 정규화된 측정 추정, 특징 기반 회귀라는 세 가지 평가 패러다임을 활용합니다. 17개의 최첨단 LLM을 벤치마킹한 결과, LLM이 유망한 지각 및 추론 능력을 보여주지만 도시 사회경제 지표 예측에는 여전히 한계가 있음을 보여줍니다. CityLens는 이러한 한계를 진단하고 LLM을 사용하여 도시 사회경제적 패턴을 이해하고 예측하기 위한 미래의 노력을 안내하는 통합 프레임워크를 제공하며, 코드와 데이터셋은 공개되었습니다.

시사점, 한계점

시사점:
도시 사회경제적 조건을 예측하기 위한 LLM의 성능을 평가하는 포괄적인 벤치마크인 CityLens를 제공합니다.
다양한 도시와 사회경제적 지표를 포함하는 다중 모달 데이터셋을 제공합니다.
LLM의 강점과 약점을 진단하고 향후 연구 방향을 제시합니다.
코드와 데이터셋을 공개하여 연구의 재현성과 확장성을 높입니다.
한계점:
현재 벤치마크에 포함된 도시의 수와 사회경제적 지표의 종류가 제한적일 수 있습니다.
LLM의 예측 성능 향상을 위한 구체적인 방법론 제시는 부족할 수 있습니다.
다양한 도시 환경의 특수성을 고려하지 못할 수 있습니다.
👍