본 논문은 대규모 언어 모델(LLM)의 긴 형식 생성 능력을 평가하기 위한 새로운 프레임워크인 LongWeave를 소개합니다. LongWeave는 현실 세계 시나리오에서 검증 가능한 목표를 설정하고, 이를 기반으로 쿼리, 텍스트 자료 및 제약 조건을 체계적으로 생성하여 모델의 성능을 객관적으로 평가합니다. Constraint-Verifier Evaluation (CoV-Eval)을 통해 현실성과 검증 가능성을 모두 확보하며, 최대 64K/8K 토큰의 입력/출력 길이를 지원하는 7가지 다양한 작업에서 모델을 평가할 수 있습니다. 23개의 LLM을 대상으로 한 평가 결과, 최첨단 모델조차도 현실 세계의 복잡성과 출력 길이가 증가함에 따라 어려움을 겪는 것으로 나타났습니다.