CityBench: Evaluating the Capabilities of Large Language Models for Urban Tasks
Created by
Haebom
저자
Jie Feng, Jun Zhang, Tianhui Liu, Xin Zhang, Tianjian Ouyang, Junbo Yan, Yuwei Du, Siqi Guo, Yong Li
개요
본 논문은 도시 연구를 위한 대규모 언어 모델(LLM) 및 비전-언어 모델(VLM)의 성능을 평가하기 위한 체계적이고 확장 가능한 벤치마크인 CityBench를 제시합니다. CityBench는 다양한 도시 데이터를 통합한 CityData와 세밀한 도시 역동성을 시뮬레이션하는 CitySimu를 기반으로 구축됩니다. 8가지 대표적인 도시 과제(지각-이해 및 의사결정 2개 범주)를 통해 30개의 잘 알려진 LLM 및 VLM을 13개 도시에서 평가한 결과, 고급 모델은 상식과 의미 이해 능력을 요구하는 과제에서 경쟁력 있는 성능을 보였으나, 전문 지식과 고차원적인 수치 능력이 필요한 과제에서는 성능이 저조했습니다.
시사점, 한계점
•
시사점:
◦
도시 연구를 위한 LLM 및 VLM 평가를 위한 최초의 체계적인 벤치마크를 제시.
◦
CityData와 CitySimu를 통해 다양한 도시 데이터와 역동성을 효과적으로 통합 및 시뮬레이션.