본 논문은 기존의 Retrieval-Augmented Generation (RAG) 시스템 평가 방법이 정량적 지표에만 치중하여 실질적인 개선 방향을 제시하지 못하는 한계를 지적하고, 이를 해결하기 위한 새로운 평가 프레임워크인 RAGXplain을 제안합니다. RAGXplain은 RAG 시스템의 성능을 정량적으로 평가하고, 대규모 언어 모델(LLM)의 추론 능력을 활용하여 평가 결과를 명확한 설명과 함께 제시함으로써 성능 저하 원인을 파악하고 개선 방향을 제시합니다. 실험 결과, RAGXplain의 제안을 적용하면 시스템 성능이 향상되며, 인간의 판단과도 높은 일치율을 보이는 것으로 나타났습니다. 이는 정량적 평가와 실질적인 최적화를 연결하여 사용자가 AI 시스템을 이해하고, 신뢰하며, 개선할 수 있도록 돕는 것을 목표로 합니다.