본 논문은 60개의 대규모 언어 모델(LLM)과 60명의 사람을 대상으로 5문장으로 구성된 창의적인 이야기 쓰기 과제를 통해 LLM의 창의적인 이야기 쓰기 능력을 체계적으로 분석한 연구입니다. 새로움, 놀라움, 다양성, 언어적 복잡성 등 여러 차원의 창의성을 측정하기 위해 자동 평가 지표와 비전문가 및 전문가의 창의성 평가 및 튜링 테스트 분류를 활용했습니다. 자동 평가 지표는 LLM이 스타일적으로 복잡한 이야기를 생성하지만, 평균적인 인간 작가에 비해 새로움, 놀라움, 다양성 측면에서는 부족함을 보여줍니다. 전문가 평가는 일반적으로 자동 평가 지표와 일치하지만, LLM과 비전문가는 인간이 생성한 이야기보다 LLM이 생성한 이야기를 더 창의적인 것으로 평가합니다. 논문에서는 이러한 평가 차이의 원인과 그 의미를 인간과 인공 창의성의 관점에서 논의합니다.