본 논문은 대규모 언어 모델(LLM)의 환각 현상을 줄이기 위한 Retrieval-augmented generation (RAG)의 한계를 지적하고, 보다 광범위한 문서 집합에 대한 이해를 요구하는 'global RAG'를 평가하기 위한 새로운 벤치마크인 GlobalQA를 소개합니다. GlobalQA는 counting, extremum queries, sorting, top-k extraction의 네 가지 핵심 task 유형을 포함합니다. 기존 RAG 방법론이 GlobalQA에서 낮은 성능을 보임을 확인하고, 이러한 문제를 해결하기 위해 chunk-level retrieval, LLM 기반 필터, 집계 모듈을 통합한 GlobalRAG 프레임워크를 제안하여 성능 향상을 입증합니다.