WritingBench: A Comprehensive Benchmark for Evaluating Large Language Models in Generative Writing
개요
본 논문은 대규모 언어 모델(LLM)의 생성적 글쓰기 능력을 평가하기 위한 포괄적인 벤치마크인 WritingBench를 제시한다. 기존 벤치마크의 한계를 극복하기 위해 WritingBench는 6개의 핵심 글쓰기 도메인과 100개의 하위 도메인에 걸쳐 LLM을 평가한다. 또한 LLM이 인스턴스별 평가 기준을 동적으로 생성하도록 하는 질의 종속적 평가 프레임워크를 제안한다. 이 프레임워크는 스타일, 형식 및 길이를 평가할 수 있도록 기준 인식 점수를 매기는 미세 조정된 비평가 모델로 보완된다. 70억 개의 매개변수를 가진 모델이 GPT-4o의 글쓰기 성능을 능가할 수 있음을 데이터 큐레이션 능력을 통해 입증했다. 연구진은 벤치마크, 평가 도구 및 모듈식 프레임워크 구성 요소를 오픈 소스로 공개하여 LLM의 글쓰기 발전을 도모한다.
시사점, 한계점
•
시사점:
◦
다양한 글쓰기 도메인과 하위 도메인을 포괄하는 새로운 벤치마크를 제시하여 LLM의 글쓰기 능력 평가의 폭을 넓힘.
◦
질의 종속적 평가 프레임워크와 기준 인식 점수 매기기를 통해 더욱 정확하고 세분화된 평가 가능.
◦
소규모 모델(7B)이 GPT-4o보다 우수한 성능을 보여줌으로써 프레임워크의 유효성을 입증.