본 논문은 대규모 언어 모델(LLM)의 생성형 글쓰기 성능 평가를 위한 종합적인 벤치마크인 WritingBench를 제시합니다. WritingBench는 창의적, 설득적, 정보적, 기술적 글쓰기를 포함한 6개의 주요 글쓰기 영역과 100개의 하위 영역에 걸쳐 LLM을 평가하도록 설계되었습니다. 특히, 질의에 따라 동적으로 평가 기준을 생성하는 평가 프레임워크와 기준 인식 점수를 위한 미세 조정된 평가 모델을 제안하여 스타일, 형식, 길이 등을 평가합니다. 70억 매개변수 모델이 최첨단 성능에 근접하도록 데이터를 관리하는 능력도 보여줍니다. 벤치마크와 평가 도구, 모듈식 프레임워크 구성 요소를 오픈소스로 공개하여 LLM의 글쓰기 발전을 도모합니다.