본 논문은 지식 그래프 기반 검색 증강 생성(KG-RAG) 모델의 평가 방법론의 부족을 지적하고, 지식 불완전성 하에서 KG-RAG 모델의 추론 능력을 체계적으로 평가하기 위한 새로운 벤치마크 구축 방법과 평가 프로토콜을 제시합니다. 기존 벤치마크의 한계점으로 지식 그래프 내의 기존 삼중항을 이용하여 직접 답을 찾을 수 있는 질문들이 포함되어 모델의 실제 추론 능력 평가가 어렵다는 점, 일관되지 않은 평가 지표와 너그러운 답변 일치 기준으로 인해 모델 간 의미있는 비교가 어렵다는 점을 지적합니다. 실험 결과, 기존 KG-RAG 방법들은 지식이 누락된 상황에서 제한적인 추론 능력을 보이며, 내부 메모리에 의존하는 경향이 있으며, 설계에 따라 다양한 일반화 수준을 보이는 것을 확인했습니다.
시사점, 한계점
•
시사점: 지식 불완전성 하에서 KG-RAG 모델의 추론 능력을 객관적으로 평가할 수 있는 새로운 벤치마크 및 평가 프로토콜 제시. 기존 KG-RAG 모델의 추론 능력 및 일반화 능력에 대한 실증적 분석 제공. KG-RAG 모델 개발 및 향상을 위한 방향 제시.
•
한계점: 제시된 벤치마크 및 평가 프로토콜의 일반화 가능성에 대한 추가 연구 필요. 다양한 유형의 지식 그래프 및 KG-RAG 모델에 대한 적용성 검증 필요. 새로운 평가 방법의 객관성 및 신뢰성에 대한 추가적인 검토 필요.