본 논문은 60개의 거대 언어 모델(LLM)과 60명의 사람을 대상으로 5문장의 단서어 기반 창의적 단편 소설 작성 과제를 통해 LLM의 창의적인 이야기 쓰기 능력을 체계적으로 분석합니다. 신규성, 놀라움, 다양성, 언어적 복잡성 등 여러 창의성 차원에 걸쳐 모델 및 인간이 생성한 이야기를 자동으로 평가하는 지표를 사용합니다. 또한 비전문가 및 전문가 인간 평가자와 LLM로부터 창의성 평점과 튜링 테스트 분류를 수집합니다. 자동 평가 지표는 LLM이 스타일적으로 복잡한 이야기를 생성하지만 평균적인 인간 작가에 비해 신규성, 놀라움, 다양성 측면에서는 부족함을 보여줍니다. 전문가 평가는 일반적으로 자동 평가 지표와 일치합니다. 그러나 LLM과 비전문가는 인간이 생성한 이야기보다 LLM이 생성한 이야기를 더 창의적인 것으로 평가합니다. 논문에서는 이러한 평가 차이가 발생하는 이유와 방식, 그리고 인간과 인공 창의성 모두에 대한 시사점을 논의합니다.