본 논문은 로그 요약 시스템 평가의 어려움을 해결하기 위해 대규모 언어 모델(LLM)을 기반으로 한 참조 없는 평가 지표인 REFLEX를 제시한다. REFLEX는 표면적인 어휘 중첩에 의존하는 기존 지표(ROUGE, BLEU 등)의 한계를 극복하고, LLM을 활용하여 관련성, 정보 제공성, 일관성 등 다양한 차원에서 요약의 품질을 평가한다. REFLEX는 골드 스탠다드 참조나 사람의 주석 없이도 안정적이고 해석 가능한 세분화된 평가를 제공하며, 기존 지표보다 모델 출력을 효과적으로 구별한다.