Sign In

Evaluating Creative Short Story Generation in Humans and Large Language Models

Created by
  • Haebom
Category
Empty

저자

Mete Ismayilzada, Claire Stevenson, Lonneke van der Plas

개요

본 논문은 60개의 대규모 언어 모델(LLM)과 60명의 사람을 대상으로 5문장으로 구성된 창의적인 이야기 쓰기 과제를 통해 LLM의 창의적인 이야기 쓰기 능력을 체계적으로 분석한 연구입니다. 새로움, 놀라움, 다양성, 언어적 복잡성 등 여러 차원의 창의성을 측정하기 위해 자동 평가 지표와 비전문가 및 전문가의 창의성 평가 및 튜링 테스트 분류를 활용했습니다. 자동 평가 지표는 LLM이 스타일적으로 복잡한 이야기를 생성하지만, 평균적인 인간 작가에 비해 새로움, 놀라움, 다양성 측면에서는 부족함을 보여줍니다. 전문가 평가는 일반적으로 자동 평가 지표와 일치하지만, LLM과 비전문가는 인간이 생성한 이야기보다 LLM이 생성한 이야기를 더 창의적인 것으로 평가합니다. 논문에서는 이러한 평가 차이의 원인과 그 의미를 인간과 인공 창의성의 관점에서 논의합니다.

시사점, 한계점

시사점:
LLM의 창의적인 이야기 생성 능력에 대한 체계적인 분석을 제공합니다.
자동 평가 지표와 인간 평가자의 평가 간의 차이를 보여주고 그 원인을 분석합니다.
인간과 인공 창의성에 대한 통찰력을 제공합니다.
LLM의 창의성 향상 방향에 대한 시사점을 제시합니다.
한계점:
5문장이라는 제한된 길이의 이야기 쓰기 과제를 사용하여 LLM의 창의성을 평가했으므로, 더 긴 이야기에 대한 일반화에는 제한이 있을 수 있습니다.
사용된 자동 평가 지표가 창의성을 완벽하게 포착하지 못할 수 있습니다.
비전문가와 전문가의 평가 간의 차이가 존재하며, 이러한 차이에 대한 추가적인 분석이 필요합니다.
특정 LLM과 인간 참여자의 제한된 샘플 크기는 일반화 가능성에 영향을 줄 수 있습니다.
👍