Knowledge Graph Question Answering (KGQA) 시스템은 복잡한 multi-hop 추론을 평가하기 위해 고품질 벤치마크에 의존한다. WebQSP, CWQ와 같은 인기 있는 데이터 세트는 부정확하거나 불완전한 정답 주석, 모호하거나, 사소하거나, 답할 수 없는 부실한 질문, 구식 또는 일관성 없는 지식과 같은 심각한 품질 문제를 겪고 있다. 16개의 인기 있는 KGQA 데이터 세트를 수동으로 감사한 결과, 평균 사실 정확성 비율이 57%에 불과하다는 것을 발견했다. 이러한 문제를 해결하기 위해, KGQAGen을 도입하여 체계적으로 이러한 함정을 해결하는 LLM-in-the-loop 프레임워크를 제시한다. KGQAGen은 구조적 지식 기반, LLM 기반 생성 및 기호적 검증을 결합하여 도전적이고 검증 가능한 QA 인스턴스를 생성한다. KGQAGen을 사용하여 Wikidata에 기반한 10,000개의 규모 벤치마크인 KGQAGen-10k를 구축하고 다양한 KG-RAG 모델 세트를 평가했다. 실험 결과는 최첨단 시스템조차 이 벤치마크에서 어려움을 겪으며 기존 모델의 한계를 드러낸다는 것을 보여준다.