知识图谱问答 (KGQA) 系统依赖于高质量的基准测试来评估复杂的多跳推理。WebQSP 和 CWQ 等热门数据集存在严重的质量问题,例如答案标注不准确或不完整,问题模棱两可、琐碎或无法回答,以及知识过时或不一致。对 16 个热门 KGQA 数据集的人工审核显示,平均事实准确率仅为 57%。为了解决这些问题,我们引入了 KGQAGen,这是一个 LLM-in-the-loop 框架,可以系统地解决这些问题。KGQAGen 结合了结构化知识库、基于 LLM 的生成和符号验证,以生成具有挑战性且可验证的问答实例。使用 KGQAGen,我们构建了基于 Wikidata 的 10,000 项规模的基准测试 KGQAGen-10k,并将其与一系列不同的 KG-RAG 模型进行评估。实验结果表明,即使是最先进的系统在这个基准上也表现不佳,暴露了现有模型的局限性。