추상적 텍스트 요약의 사실적 일관성을 평가하는 것은 특히 장문 문서에서 중요한 과제이며, 기존 메트릭은 입력 길이 제한 및 장거리 의존성으로 어려움을 겪습니다. 본 연구에서는 단문 요약을 위해 제안된 6가지 널리 사용되는 참조 없는 사실성 메트릭의 신뢰성을 장문 환경에서 체계적으로 평가합니다. 우리는 패러프레이징, 단순화, 동의어 대체, 논리적으로 동등한 부정, 어휘 감소, 압축 및 소스 텍스트 삽입 등 요약에 적용된 7가지 사실성을 보존하는 교란을 통해 메트릭의 견고성을 조사하고, 검색 컨텍스트 및 주장 정보 밀도에 대한 민감도를 분석합니다. SF, 법률 및 과학 분야를 포함하는 세 가지 장문 벤치마크 데이터 세트에서 기존 단문 메트릭은 의미적으로 동등한 요약에 대해 일관성 없는 점수를 생성하고 소스 문서의 많은 부분과 의미적으로 유사한 내용의 정보 밀도가 높은 주장에 대해 신뢰성이 감소하는 것으로 나타났습니다. 검색 컨텍스트를 확장하면 일부 도메인에서 안정성이 향상되지만 장문 조건에서 사실적 정렬을 일관되게 유지하는 메트릭은 없습니다. 마지막으로, 본 연구 결과는 장문 요약의 견고성을 향상시키기 위해 다중 스팬 추론, 컨텍스트 인식 보정 및 의미 보존 변형에 대한 학습을 포함하여 사실성 평가 개선을 위한 구체적인 방향을 제시합니다.