본 논문은 대규모 언어 모델(LLM)의 사실 확인 능력을 다양한 지역과 시나리오에 걸쳐 평가한 연구입니다. 6개 지역에서 수집한 600개의 사실 확인된 진술문을 사용하여 세 가지 실험 설정(진술문만 제공, 위키피디아 접근 LLM 에이전트 활용, 공식 사실 확인 정보를 제공하는 RAG 시스템 활용) 하에 GPT-4, Claude Sonnet, LLaMA 등의 모델 성능을 비교 분석했습니다. 그 결과, 모든 설정과 LLM에서 북반구 진술문의 사실 확인 정확도가 남반구 진술문보다 훨씬 높았으며, 특히 위키피디아 에이전트 기반 시스템에서는 이러한 격차가 더욱 커지는 것을 확인했습니다. 이는 일반적인 지식 기반의 한계를 보여주는 결과입니다.