본 논문은 서사적 요약에서의 충실도 검증에 있어 기존의 인간 평가 방식의 한계를 지적하고, 새로운 데이터셋 STORYSUMM을 제시합니다. STORYSUMM은 단편 소설에 대한 LLM 요약과 국소적인 충실도 레이블 및 오류 설명으로 구성되어 있으며, 다양한 충실도 평가 방법의 성능을 검증하는 데 사용됩니다. 논문은 인간 어노테이션 프로토콜의 한계를 보여주고, 다양한 방법론을 통한 정답 생성의 중요성을 강조합니다. 또한 기존 자동 평가 지표들의 성능이 70%의 균형 정확도를 넘지 못함을 보여주며, 충실도 평가 분야의 향후 연구 과제를 제시합니다.