본 논문은 대규모 언어 모델(LLM)의 환각 현상(hallucination) 검출 방법의 평가에 대한 문제점을 지적한다. 기존의 환각 검출 방법들은 ROUGE와 같은 어휘 중복 기반 지표에 의존하는데, 이는 인간의 판단과 일치하지 않아 오류를 야기한다는 것이다. 연구진은 인간 연구를 통해 ROUGE가 높은 재현율을 보이지만 정밀도가 매우 낮아 성능 과대평가로 이어짐을 보였다. LLM-as-Judge와 같은 인간 기반 평가 지표를 사용했을 때 기존 검출 방법들의 성능이 최대 45.9%까지 저하되는 것을 확인했으며, 응답 길이와 같은 간단한 휴리스틱 방법이 복잡한 검출 기술과 비슷한 성능을 보이는 것도 발견했다. 따라서, 의미를 고려하고 견고한 평가 체계를 도입하여 환각 검출 방법의 성능을 정확하게 측정해야 LLM 출력의 신뢰성을 확보할 수 있다고 주장한다.