본 논문은 대규모 언어 모델(LLM)을 이용한 자연어 생성 평가 자동화의 한계점을 지적하고, 이를 극복하기 위한 새로운 평가 프레임워크인 HypoEval을 제안합니다. 기존의 LLM 기반 평가 방법들은 인간의 개입 없이 제로샷 설정을 사용하거나 많은 양의 라벨링된 데이터를 필요로 하는 미세조정 방식을 사용하여 정확도가 낮거나 비효율적이라는 한계가 있었습니다. HypoEval은 소규모의 인간 평가 데이터를 활용하여 세부적인 평가 기준을 생성하고, 체크리스트 방식을 통해 각 차원별 LLM 점수를 종합하여 최종 점수를 산출합니다. 단 30개의 인간 평가만으로도 기존 최고 성능을 능가하는 정확도를 달성하며, 해석 가능성도 높다는 것을 실험적으로 보여줍니다.