대규모 언어 모델(LLM)이 거시적인 지리적 과제는 잘 처리하지만, 지역 사회의 세부적인 지식을 다루는 능력은 부족하다는 점을 지적하며, 지역 사회에 특화된 AI 시스템의 필요성을 강조한다. 이를 위해 미국 내 카운티 수준의 지역 지식을 평가하는 LocalBench 벤치마크를 제시한다. LocalBench는 다양한 데이터 소스를 통합하여 14,782개의 질문-답변 쌍을 포함하며, 13개의 최신 LLM을 평가한다. 결과적으로, LLM은 지역적 지식 관련 과제에서 낮은 성능을 보였으며, 모델 크기나 웹 보강이 성능 향상을 보장하지 않음을 확인했다.