본 논문은 대규모 언어 모델(LLM)이 지역(hyper-local) 지식을 얼마나 잘 이해하는지 평가하는 LocalBench 벤치마크를 제시합니다. LLM은 세계적 규모의 지리적 과제는 잘 수행하지만, 지역 사회의 역학, 문화적 서사, 지역 거버넌스 등 지역 특화 지식을 다루는 능력은 부족합니다. LocalBench는 미국 내 526개 카운티에 걸쳐 14,782개의 검증된 질문-답변 쌍을 포함하며, 인구 통계, 지역 커뮤니티 토론, 지역 뉴스 등 다양한 소스를 통합하여 물리적, 인지적, 관계적 차원의 지역성을 포괄합니다. 13개의 최신 LLM을 closed-book 및 web-augmented 설정에서 평가한 결과, 특히 서술형 질문에서 최대 56.8%의 정확도를 보였고, 수치적 추론에서는 15.5% 미만의 성능을 보였습니다.