Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LocalBench: Benchmarking LLMs on County-Level Local Knowledge and Reasoning

Created by
  • Haebom
Category
Empty

저자

Zihan Gao, Yifei Xu, Jacob Thebault-Spieker

LocalBench: LLM의 지역 지식 이해도 평가 벤치마크

개요

본 논문은 대규모 언어 모델(LLM)이 지역(hyper-local) 지식을 얼마나 잘 이해하는지 평가하는 LocalBench 벤치마크를 제시합니다. LLM은 세계적 규모의 지리적 과제는 잘 수행하지만, 지역 사회의 역학, 문화적 서사, 지역 거버넌스 등 지역 특화 지식을 다루는 능력은 부족합니다. LocalBench는 미국 내 526개 카운티에 걸쳐 14,782개의 검증된 질문-답변 쌍을 포함하며, 인구 통계, 지역 커뮤니티 토론, 지역 뉴스 등 다양한 소스를 통합하여 물리적, 인지적, 관계적 차원의 지역성을 포괄합니다. 13개의 최신 LLM을 closed-book 및 web-augmented 설정에서 평가한 결과, 특히 서술형 질문에서 최대 56.8%의 정확도를 보였고, 수치적 추론에서는 15.5% 미만의 성능을 보였습니다.

시사점, 한계점

시사점:
LLM의 지역 지식 이해 능력에 대한 새로운 벤치마크 제공
다양한 데이터 소스를 통합하여 지역 특화 지식의 복잡성을 포착
LLM의 지역 지식 관련 한계를 명확히 제시
공정하고 지역에 특화된 AI 시스템 개발의 필요성 강조
한계점:
최고 성능 모델도 특정 유형의 질문(서술형, 수치적 추론)에서 낮은 정확도
모델 크기나 웹 검색이 반드시 성능 향상으로 이어지지 않음
특정 지역 및 문화적 맥락에 국한될 수 있음
벤치마크가 모든 지역 지식의 측면을 포괄하지 못할 수 있음
👍