Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

WebNovelBench: Placing LLM Novelists on the Web Novel Distribution

Created by
  • Haebom

저자

Leon Lin, Jun Zheng, Haidong Wang

개요

대규모 언어 모델(LLM)의 장편 스토리텔링 능력을 견고하게 평가하는 것은 기존 벤치마크가 필요한 규모, 다양성 또는 객관적인 척도를 종종 갖추지 못했기 때문에 여전히 상당한 과제입니다. 이를 해결하기 위해, 본 연구는 장편 소설 생성 평가를 위해 특별히 설계된 새로운 벤치마크인 WebNovelBench를 소개합니다. WebNovelBench는 4,000개가 넘는 중국 웹소설의 대규모 데이터 세트를 활용하여 평가를 개요에서 이야기 생성 작업으로 구성합니다. 본 연구는 LLM-as-Judge 접근 방식을 통해 자동으로 평가되는 8가지 서사적 품질 차원을 포함하는 다면적 프레임워크를 제안합니다. 점수는 주성분 분석을 사용하여 집계되고 인간이 작성한 작품에 대한 백분위수 순위에 매핑됩니다. 본 연구의 실험은 WebNovelBench가 인간이 쓴 걸작, 인기 웹소설 및 LLM이 생성한 콘텐츠를 효과적으로 구별함을 보여줍니다. 본 연구는 24개의 최첨단 LLM에 대한 포괄적인 분석을 제공하여 스토리텔링 능력을 순위 매기고 향후 개발을 위한 통찰력을 제공합니다. 이 벤치마크는 LLM 기반 서사 생성을 평가하고 발전시키기 위한 확장 가능하고, 복제 가능하며, 데이터 중심적인 방법론을 제공합니다.

시사점, 한계점

시사점:
LLM의 장편 스토리텔링 능력 평가를 위한 새로운 벤치마크인 WebNovelBench 제시
대규모 중국 웹소설 데이터셋을 활용한 다면적 평가 프레임워크 구축
LLM-as-Judge 접근 방식을 통한 자동 평가 및 객관적 척도 제공
24개의 최첨단 LLM에 대한 성능 비교 분석 및 향후 연구 방향 제시
LLM 기반 서사 생성 기술 발전에 기여하는 확장 가능하고, 복제 가능하며, 데이터 중심적인 방법론 제공
한계점:
중국 웹소설 데이터셋에 국한된 연구로, 다른 언어 및 장르의 소설에 대한 일반화 가능성 제한
LLM-as-Judge 접근 방식의 한계로 인한 평가의 주관성 및 편향 가능성 존재
서사적 품질 차원의 정의 및 측정 방식에 대한 추가적인 연구 필요
인간 평가자와의 비교 분석을 통해 평가의 신뢰도 및 타당도 검증 필요
👍