본 논문은 대규모 언어 모델(LLM)의 생성형 글쓰기 성능 평가의 어려움을 해결하기 위해, 6개의 주요 글쓰기 영역과 100개의 하위 영역을 포함하는 포괄적인 벤치마크인 WritingBench를 제시합니다. 창의적, 설득적, 정보적, 기술적 글쓰기를 포함하는 다양한 글쓰기 유형을 평가하도록 설계되었으며, LLM이 인스턴스별 평가 기준을 동적으로 생성하는 쿼리 종속 평가 프레임워크를 제안합니다. 이 프레임워크는 스타일, 형식, 길이에 대한 평가를 가능하게 하는 미세 조정된 평가 모델을 포함하며, 데이터 큐레이션 기능을 통해 70억 매개변수 모델이 최첨단 성능에 근접할 수 있음을 보여줍니다. 벤치마크, 평가 도구 및 모듈식 프레임워크 구성 요소를 오픈 소스로 공개하여 LLM의 글쓰기 능력 발전에 기여합니다.