최첨단 대규모 언어 모델(LLM)의 답변 평가가 어렵습니다. 어휘적 메트릭은 의미적 미묘함을 놓치고, "LLM-as-Judge" 채점은 계산 비용이 많이 듭니다. 본 연구에서는 간단한 어휘 일치 플래그로 보강된 기성 자연어 추론(NLI) 채점이라는 가벼운 대안을 재평가하여, 수십 년 된 이 기술이 장문 QA에서 GPT-4o의 정확도(89.9%)와 일치하면서, 훨씬 적은 수의 매개변수를 필요로 함을 발견했습니다. 이러한 메트릭의 인간 정렬을 엄격하게 테스트하기 위해, 5개의 QA 데이터 세트와 5개의 후보 LLM을 포함하는 새로운 3000개 샘플의 인간 주석 처리된 벤치마크인 DIVER-QA를 도입했습니다. 연구 결과는 저렴한 NLI 기반 평가가 여전히 경쟁력이 있으며, 향후 메트릭 연구를 위한 공개 리소스로 DIVER-QA를 제공함을 보여줍니다.