Sign In

LongWeave: A Long-Form Generation Benchmark Bridging Real-World Relevance and Verifiability

Created by
  • Haebom
Category
Empty

저자

Zikai Xiao, Fei Huang, Jianhong Tu, Jianhui Wei, Wen Ma, Yuxuan Zhou, Jian Wu, Bowen Yu, Zuozhu Liu, Junyang Lin

개요

본 논문은 대규모 언어 모델(LLM)의 긴 형식 생성 능력을 평가하기 위한 새로운 프레임워크인 LongWeave를 소개합니다. LongWeave는 현실 세계 시나리오에서 검증 가능한 목표를 설정하고, 이를 기반으로 쿼리, 텍스트 자료 및 제약 조건을 체계적으로 생성하여 모델의 성능을 객관적으로 평가합니다. Constraint-Verifier Evaluation (CoV-Eval)을 통해 현실성과 검증 가능성을 모두 확보하며, 최대 64K/8K 토큰의 입력/출력 길이를 지원하는 7가지 다양한 작업에서 모델을 평가할 수 있습니다. 23개의 LLM을 대상으로 한 평가 결과, 최첨단 모델조차도 현실 세계의 복잡성과 출력 길이가 증가함에 따라 어려움을 겪는 것으로 나타났습니다.

시사점, 한계점

시사점:
현실 세계 시나리오 기반의 긴 형식 생성 능력 평가를 위한 새로운 프레임워크 제시.
객관적이고 검증 가능한 평가를 가능하게 하는 CoV-Eval 방법론 도입.
다양한 LLM의 성능 평가를 통해 긴 형식 생성의 어려움을 제시.
최대 64K/8K 토큰의 긴 입력/출력을 지원하여 광범위한 평가 가능.
한계점:
CoV-Eval의 구체적인 구현 방식 및 제약 조건 생성 방법에 대한 추가 정보 부족.
평가에 사용된 7가지 작업의 구체적인 내용 및 난이도에 대한 정보 부족.
LongWeave 프레임워크가 특정 도메인 또는 작업에 편향되었을 가능성.
평가 결과의 일반화 가능성에 대한 추가적인 검토 필요.
👍