Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

WritingBench: A Comprehensive Benchmark for Generative Writing

Created by
  • Haebom
Category
Empty

저자

Yuning Wu, Jiahao Mei, Ming Yan, Chenliang Li, Shaopeng Lai, Yuran Ren, Zijia Wang, Ji Zhang, Mengyue Wu, Qin Jin, Fei Huang

WritingBench: A Comprehensive Benchmark for Evaluating Large Language Models in Generative Writing

개요

본 논문은 대규모 언어 모델(LLM)의 생성적 글쓰기 능력을 평가하기 위한 포괄적인 벤치마크인 WritingBench를 제시한다. 기존 벤치마크의 한계를 극복하기 위해 WritingBench는 6개의 핵심 글쓰기 도메인과 100개의 하위 도메인에 걸쳐 LLM을 평가한다. 또한 LLM이 인스턴스별 평가 기준을 동적으로 생성하도록 하는 질의 종속적 평가 프레임워크를 제안한다. 이 프레임워크는 스타일, 형식 및 길이를 평가할 수 있도록 기준 인식 점수를 매기는 미세 조정된 비평가 모델로 보완된다. 70억 개의 매개변수를 가진 모델이 GPT-4o의 글쓰기 성능을 능가할 수 있음을 데이터 큐레이션 능력을 통해 입증했다. 연구진은 벤치마크, 평가 도구 및 모듈식 프레임워크 구성 요소를 오픈 소스로 공개하여 LLM의 글쓰기 발전을 도모한다.

시사점, 한계점

시사점:
다양한 글쓰기 도메인과 하위 도메인을 포괄하는 새로운 벤치마크를 제시하여 LLM의 글쓰기 능력 평가의 폭을 넓힘.
질의 종속적 평가 프레임워크와 기준 인식 점수 매기기를 통해 더욱 정확하고 세분화된 평가 가능.
소규모 모델(7B)이 GPT-4o보다 우수한 성능을 보여줌으로써 프레임워크의 유효성을 입증.
오픈 소스 제공을 통해 연구 커뮤니티의 기여를 장려하고 LLM 연구 발전에 기여.
한계점:
논문에서 구체적인 한계점이 명시되지 않음.
👍