대규모 언어 모델(LLM)의 장편 스토리텔링 능력을 견고하게 평가하는 것은 기존 벤치마크가 필요한 규모, 다양성 또는 객관적인 척도를 종종 갖추지 못했기 때문에 여전히 상당한 과제입니다. 이를 해결하기 위해, 본 연구는 장편 소설 생성 평가를 위해 특별히 설계된 새로운 벤치마크인 WebNovelBench를 소개합니다. WebNovelBench는 4,000개가 넘는 중국 웹소설의 대규모 데이터 세트를 활용하여 평가를 개요에서 이야기 생성 작업으로 구성합니다. 본 연구는 LLM-as-Judge 접근 방식을 통해 자동으로 평가되는 8가지 서사적 품질 차원을 포함하는 다면적 프레임워크를 제안합니다. 점수는 주성분 분석을 사용하여 집계되고 인간이 작성한 작품에 대한 백분위수 순위에 매핑됩니다. 본 연구의 실험은 WebNovelBench가 인간이 쓴 걸작, 인기 웹소설 및 LLM이 생성한 콘텐츠를 효과적으로 구별함을 보여줍니다. 본 연구는 24개의 최첨단 LLM에 대한 포괄적인 분석을 제공하여 스토리텔링 능력을 순위 매기고 향후 개발을 위한 통찰력을 제공합니다. 이 벤치마크는 LLM 기반 서사 생성을 평가하고 발전시키기 위한 확장 가능하고, 복제 가능하며, 데이터 중심적인 방법론을 제공합니다.