본 논문은 대규모 언어 모델(LLM)의 생성형 글쓰기 성능 평가의 어려움을 해결하기 위해, 6개의 주요 글쓰기 영역과 100개의 하위 영역을 포괄하는 종합적인 벤치마크인 WritingBench를 제시합니다. WritingBench는 창작, 설득, 정보 제공, 기술 글쓰기 등 다양한 글쓰기 유형을 포함하며, 쿼리에 따라 동적으로 평가 기준을 생성하는 평가 프레임워크와 기준 인식 점수를 위한 미세 조정된 평가 모델을 제공합니다. 이 프레임워크의 유효성은 70억 매개변수 모델이 최첨단 성능에 근접하도록 데이터를 관리하는 능력으로 입증되었으며, 벤치마크, 평가 도구, 모듈식 프레임워크 구성 요소를 오픈소스로 공개하여 LLM의 글쓰기 발전에 기여합니다.