본 논문은 중국 소설을 기반으로 한 다중 스케일 장문 요약 벤치마크인 CNNSum을 제시합니다. CNNSum은 총 695개의 샘플(길이 16k~128k)로 구성되며, 다양한 LLM을 벤치마킹하고 인간 평가를 통해 비정상적인 출력 유형을 분석합니다. 또한 장문 요약 개선 방안을 광범위하게 탐구하여, 고급 LLM의 주관적인 요약 경향, 메모리 능력 의존성, 프롬프트 유형 및 모델 버전에 따른 성능 차이, RoPE 기반 스케일링 LLM의 외삽 잠재력 등을 분석하고, CNNSum이 기존 벤치마크보다 더 신뢰할 수 있는 평가 결과를 제공함을 보여줍니다. CNNSum 데이터셋은 공개되어 향후 연구에 기여할 것으로 기대됩니다.