每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

诊断和解决 KG-RAG 数据集中的缺陷:迈向更可靠的基准测试

Created by
  • Haebom

作者

张亮亮、蒋卓瑞、迟红亮、陈浩阳、Mohammed Elkoumy、王法丽、吴琼、周正义、潘诗睿、王苏航、马耀

大纲

知识图谱问答 (KGQA) 系统依赖于高质量的基准测试来评估复杂的多跳推理。WebQSP 和 CWQ 等热门数据集存在严重的质量问题,例如答案标注不准确或不完整,问题模棱两可、琐碎或无法回答,以及知识过时或不一致。对 16 个热门 KGQA 数据集的人工审核显示,平均事实准确率仅为 57%。为了解决这些问题,我们引入了 KGQAGen,这是一个 LLM-in-the-loop 框架,可以系统地解决这些问题。KGQAGen 结合了结构化知识库、基于 LLM 的生成和符号验证,以生成具有挑战性且可验证的问答实例。使用 KGQAGen,我们构建了基于 Wikidata 的 10,000 项规模的基准测试 KGQAGen-10k,并将其与一系列不同的 KG-RAG 模型进行评估。实验结果表明,即使是最先进的系统在这个基准上也表现不佳,暴露了现有模型的局限性。

Takeaways, Limitations

平均事实准确率为57%,表明现有KGQA数据集存在严重的质量问题。
KGQAGen 利用 LLM-in-the-loop 框架创建具有挑战性且可验证的 QA 实例,从而解决了这些挑战。
通过 KGQAGen-10k 基准揭示现有 KGQA 模型的局限性,我们强调构建更严格的基准的必要性。
KGQAGen 具有作为 KGQA 评估开发的可扩展框架的潜力。
本研究主要关注提高 KGQA 数据集的质量,并未给出直接提高模型本身性能的结果。
👍