Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Diagnosing and Addressing Pitfalls in KG-RAG Datasets: Toward More Reliable Benchmarking

Created by
  • Haebom

저자

Liangliang Zhang, Zhuorui Jiang, Hongliang Chi, Haoyang Chen, Mohammed Elkoumy, Fali Wang, Qiong Wu, Zhengyi Zhou, Shirui Pan, Suhang Wang, Yao Ma

개요

Knowledge Graph Question Answering (KGQA) 시스템은 복잡한 multi-hop 추론을 평가하기 위해 고품질 벤치마크에 의존한다. WebQSP, CWQ와 같은 인기 있는 데이터 세트는 부정확하거나 불완전한 정답 주석, 모호하거나, 사소하거나, 답할 수 없는 부실한 질문, 구식 또는 일관성 없는 지식과 같은 심각한 품질 문제를 겪고 있다. 16개의 인기 있는 KGQA 데이터 세트를 수동으로 감사한 결과, 평균 사실 정확성 비율이 57%에 불과하다는 것을 발견했다. 이러한 문제를 해결하기 위해, KGQAGen을 도입하여 체계적으로 이러한 함정을 해결하는 LLM-in-the-loop 프레임워크를 제시한다. KGQAGen은 구조적 지식 기반, LLM 기반 생성 및 기호적 검증을 결합하여 도전적이고 검증 가능한 QA 인스턴스를 생성한다. KGQAGen을 사용하여 Wikidata에 기반한 10,000개의 규모 벤치마크인 KGQAGen-10k를 구축하고 다양한 KG-RAG 모델 세트를 평가했다. 실험 결과는 최첨단 시스템조차 이 벤치마크에서 어려움을 겪으며 기존 모델의 한계를 드러낸다는 것을 보여준다.

시사점, 한계점

평균 사실 정확성 비율이 57%로, 기존 KGQA 데이터 세트의 품질 문제가 심각하다.
KGQAGen은 LLM-in-the-loop 프레임워크를 활용하여 이러한 문제점을 해결하고, 도전적이고 검증 가능한 QA 인스턴스를 생성한다.
KGQAGen-10k 벤치마크를 통해 기존 KGQA 모델의 한계를 드러냄으로써, 보다 엄격한 벤치마크 구축의 필요성을 강조한다.
KGQAGen은 KGQA 평가 발전을 위한 확장 가능한 프레임워크로서의 가능성을 제시한다.
본 연구는 KGQA 데이터 세트의 품질 개선에 초점을 맞추고 있으며, 모델 자체의 성능 향상에 대한 직접적인 결과는 제시하지 않는다.
👍