Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LocalBench: Benchmarking LLMs on County-Level Local Knowledge and Reasoning

Created by
  • Haebom
Category
Empty

저자

Zihan Gao, Yifei Xu, Jacob Thebault-Spieker

개요

대규모 언어 모델(LLM)이 거시적인 지리적 과제는 잘 처리하지만, 지역 사회의 세부적인 지식을 다루는 능력은 부족하다는 점을 지적하며, 지역 사회에 특화된 AI 시스템의 필요성을 강조한다. 이를 위해 미국 내 카운티 수준의 지역 지식을 평가하는 LocalBench 벤치마크를 제시한다. LocalBench는 다양한 데이터 소스를 통합하여 14,782개의 질문-답변 쌍을 포함하며, 13개의 최신 LLM을 평가한다. 결과적으로, LLM은 지역적 지식 관련 과제에서 낮은 성능을 보였으며, 모델 크기나 웹 보강이 성능 향상을 보장하지 않음을 확인했다.

시사점, 한계점

시사점:
LLM이 지역 사회의 세부적인 지식을 이해하는 데 한계가 있음을 보여준다.
지역 사회에 특화된 AI 시스템 개발의 필요성을 강조한다.
LocalBench 벤치마크를 통해 LLM의 지역 지식 관련 성능을 평가할 수 있는 기반을 마련했다.
한계점:
최고 성능 모델의 서술형 질문 정답률은 56.8%에 불과하며, 수치적 추론은 15.5% 미만으로 낮다.
모델 크기나 웹 검색 보강이 반드시 성능 향상으로 이어지지 않는다. (모델에 따라 성능이 감소하기도 함)
👍