본 논문은 도시 에이전트로서 대규모 언어 모델(LLM)의 공간-시간적 추론 능력을 평가하기 위한 새로운 벤치마크인 USTBench를 제시합니다. 기존 연구들이 주로 결과 수준의 지표(예: 예측 정확도, 교통 효율성)에 초점을 맞춘 것과 달리, USTBench는 공간-시간적 이해, 예측, 계획, 피드백을 통한 반성 등 네 가지 차원으로 LLM의 추론 과정을 평가합니다. 다양한 도시 의사결정 과제와 공간-시간적 예측 과제를 포함하며, 62,466개의 구조화된 QA 쌍과 표준화된 종단 간 과제 평가를 제공하여 세밀한 진단과 광범위한 과제 수준 비교를 가능하게 합니다. 13개의 주요 LLM에 대한 광범위한 평가를 통해, LLM이 다양한 도시 과제에서 잠재력을 보이지만 장기 계획 및 역동적인 도시 환경에서의 반응적 적응에는 어려움을 겪는다는 것을 밝힙니다. 일반적인 논리나 수학 문제에 대해 훈련된 최신 추론 모델(예: DeepSeek-R1)이 비추론 LLM을 일관되게 능가하지 못하는 점은 도메인 특화된 적응 방법의 필요성을 강조합니다. USTBench는 더욱 적응적이고 효과적인 LLM 기반 도시 에이전트와 광범위한 스마트 도시 애플리케이션을 구축하기 위한 기반을 제공합니다.