본 논문은 대규모 언어 모델(LLM)의 개방형 과제 해결 능력, 특히 주관적인 평가 기준을 가진 글쓰기 작업에서의 성능을 연구합니다. Gemini 1.5 Pro, Claude 3.5 Sonnet, GPT-4o 세 가지 주요 LLM을 대상으로, 자율적인 글쓰기 협력자로서의 역할 수행 능력을 분석합니다. LLM의 행동 다양성, 인간 정렬, 반복적인 개선 능력이 전반적인 성능에 미치는 영향을 중점적으로 살펴보며, 자율적인 글쓰기 에이전트 벤치마킹 프레임워크를 제시하고 개방형 도메인에서 탁월한 성능을 발휘하는 시스템 구축의 근본적인 과제와 잠재적인 해결책을 제시합니다.