본 논문은 다양한 기법(TextRank, BART, Mistral-7B-Instruct, OpenAI GPT-3.5-Turbo)을 사용하여 텍스트 요약을 수행하고, ROUGE Score, BERT Score와 같은 기존 지표와 소스 텍스트와의 일관성을 직접 평가하는 LLM 기반 평가 방법을 사용하여 생성된 요약을 평가합니다. LLM 평가 시스템의 성능을 직접 평가하는 메타 평가 점수를 도입하여 XL-Sum 데이터셋에서 모든 요약 모델이 참조 요약보다 일관성 있는 요약을 생성함을 발견했습니다. LLM 기반의 요약 모델이 우수한 성능을 보이지만, 환각된 세부 정보를 생성할 수 있다는 점을 지적하며, 자동화된 고품질 평가의 중요성을 강조합니다.