Sign In

Evaluating Creative Short Story Generation in Humans and Large Language Models

Created by
  • Haebom
Category
Empty

저자

Mete Ismayilzada, Claire Stevenson, Lonneke van der Plas

개요

본 논문은 60개의 대규모 언어 모델(LLM)과 60명의 사람을 대상으로 5문장으로 된 창의적인 이야기쓰기 과제를 통해 LLM의 창의적인 이야기쓰기 능력을 체계적으로 분석한 연구입니다. 새로움, 놀라움, 다양성, 언어적 복잡성 등 여러 차원의 창의성을 측정하는 자동 평가 지표와 비전문가 및 전문가의 창의성 평가 및 튜링 테스트 분류를 사용했습니다. 자동 평가 지표는 LLM이 스타일적으로 복잡한 이야기를 생성하지만, 평균적인 인간 작가에 비해 새로움, 놀라움, 다양성 측면에서는 부족함을 보임을 보여줍니다. 전문가 평가는 일반적으로 자동 평가 지표와 일치하지만, LLM과 비전문가는 인간이 생성한 이야기보다 LLM이 생성한 이야기를 더 창의적인 것으로 평가했습니다. 논문은 이러한 평가 차이의 원인과 영향, 그리고 인간과 인공 창의성에 대한 시사점을 논의합니다.

시사점, 한계점

시사점:
LLM의 이야기 생성 능력에 대한 체계적인 분석을 통해 LLM의 창의성 수준과 한계를 밝힘.
자동 평가 지표와 인간 평가자의 평가 간의 차이를 분석하여 LLM의 창의성 평가에 대한 새로운 시각 제시.
인간과 인공지능의 창의성에 대한 비교 분석을 통해 향후 연구 방향 제시.
한계점:
5문장이라는 짧은 분량의 이야기쓰기 과제는 LLM의 창의성을 완전히 평가하기에 충분하지 않을 수 있음.
사용된 자동 평가 지표의 한계로 인해 LLM의 창의성을 완벽하게 측정하지 못할 수 있음.
비전문가와 전문가의 평가 간의 차이가 존재하며, 평가자의 주관성이 결과에 영향을 미칠 수 있음.
분석에 사용된 LLM과 인간 참가자의 수가 제한적일 수 있음.
👍