Diagnosing and Addressing Pitfalls in KG-RAG Datasets: Toward More Reliable Benchmarking
Created by
Haebom
저자
Liangliang Zhang, Zhuorui Jiang, Hongliang Chi, Haoyang Chen, Mohammed Elkoumy, Fali Wang, Qiong Wu, Zhengyi Zhou, Shirui Pan, Suhang Wang, Yao Ma
KGQAGen: LLM-in-the-loop Framework for Knowledge Graph Question Answering
개요
본 논문은 지식 그래프 질의 응답(KGQA) 시스템의 평가를 위한 벤치마크의 품질 문제점을 지적하고, 이를 해결하기 위한 LLM 기반 프레임워크인 KGQAGen을 제안한다. 기존 KGQA 벤치마크들의 낮은 정확도(57%) 문제를 해결하기 위해, KGQAGen은 구조화된 지식 기반, LLM 기반 생성, 기호적 검증을 결합하여 난이도 있고 검증 가능한 QA 인스턴스를 생성한다. KGQAGen을 사용하여 Wikidata를 기반으로 한 10,000개 규모의 벤치마크인 KGQAGen-10k를 구축하고, 다양한 KG-RAG 모델을 평가한다. 실험 결과는 최첨단 시스템조차 이 벤치마크에서 어려움을 겪으며, 기존 모델의 한계를 드러낸다.
시사점, 한계점
•
시사점:
◦
KGQA 벤치마크의 품질 문제에 대한 심각성을 제기하고, 정확하고 도전적인 벤치마크의 필요성을 강조한다.
◦
LLM을 활용한 새로운 KGQA 벤치마크 생성 프레임워크인 KGQAGen을 제시하여, 기존 벤치마크의 문제점을 해결하고 평가 정확도를 향상시킬 수 있는 가능성을 제시한다.
◦
KGQAGen-10k 벤치마크를 통해 KG-RAG 모델의 성능 한계를 드러내고, 향후 모델 개발 방향을 제시한다.
•
한계점:
◦
LLM에 의존하는 특성상, LLM의 편향성이나 오류가 벤치마크에 영향을 미칠 수 있다.
◦
구체적인 KGQAGen의 구현 방식 및 세부 알고리즘에 대한 정보가 부족할 수 있다. (논문 초록에 제한된 정보만 제공됨)
◦
KGQAGen-10k 벤치마크가 특정 지식 그래프(Wikidata)에만 국한되어, 다른 지식 그래프에 대한 일반화 가능성에 대한 추가 연구가 필요할 수 있다.