본 논문은 대규모 언어 모델(LLM)을 활용한 질의응답(RAG) 프레임워크에서 발생하는 환각(hallucination) 문제 해결을 위한 새로운 평가 방법을 제안한다. 기존의 상용 LLM(예: GPT-4)을 이용한 평가는 비용이 많이 들고 투명성이 부족하다는 한계를 가지므로, 경량화된 양자화된 LLM을 이용하여 해석 가능하고 접근성이 높은 평가 지표를 개발한다. 생성된 답변의 정확성과 신뢰성에 대한 연속적인 점수를 제공하여 의사결정의 신뢰도를 평가하고, 새로운 AUC 지표를 제시하여 사람의 판단과의 상관관계를 대체한다.