본 논문은 60개의 대규모 언어 모델(LLM)과 60명의 사람을 대상으로 5문장으로 된 창의적인 이야기쓰기 과제를 통해 LLM의 창의적인 이야기쓰기 능력을 체계적으로 분석한 연구입니다. 새로움, 놀라움, 다양성, 언어적 복잡성 등 여러 차원의 창의성을 측정하는 자동 평가 지표와 비전문가 및 전문가의 창의성 평가 및 튜링 테스트 분류를 사용했습니다. 자동 평가 지표는 LLM이 스타일적으로 복잡한 이야기를 생성하지만, 평균적인 인간 작가에 비해 새로움, 놀라움, 다양성 측면에서는 부족함을 보임을 보여줍니다. 전문가 평가는 일반적으로 자동 평가 지표와 일치하지만, LLM과 비전문가는 인간이 생성한 이야기보다 LLM이 생성한 이야기를 더 창의적인 것으로 평가했습니다. 논문은 이러한 평가 차이의 원인과 영향, 그리고 인간과 인공 창의성에 대한 시사점을 논의합니다.