[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Evaluating Creative Short Story Generation in Humans and Large Language Models

Created by
  • Haebom

저자

Mete Ismayilzada, Claire Stevenson, Lonneke van der Plas

개요

본 논문은 60개의 거대 언어 모델(LLM)과 60명의 사람을 대상으로 5문장의 단서어 기반 창의적 단편 소설 작성 과제를 통해 LLM의 창의적인 이야기 쓰기 능력을 체계적으로 분석합니다. 신규성, 놀라움, 다양성, 언어적 복잡성 등 여러 창의성 차원에 걸쳐 모델 및 인간이 생성한 이야기를 자동으로 평가하는 지표를 사용합니다. 또한 비전문가 및 전문가 인간 평가자와 LLM로부터 창의성 평점과 튜링 테스트 분류를 수집합니다. 자동 평가 지표는 LLM이 스타일적으로 복잡한 이야기를 생성하지만 평균적인 인간 작가에 비해 신규성, 놀라움, 다양성 측면에서는 부족함을 보여줍니다. 전문가 평가는 일반적으로 자동 평가 지표와 일치합니다. 그러나 LLM과 비전문가는 인간이 생성한 이야기보다 LLM이 생성한 이야기를 더 창의적인 것으로 평가합니다. 논문에서는 이러한 평가 차이가 발생하는 이유와 방식, 그리고 인간과 인공 창의성 모두에 대한 시사점을 논의합니다.

시사점, 한계점

시사점:
LLM의 스타일적 복잡성은 높지만, 신규성, 놀라움, 다양성 측면에서는 인간의 창의성에 미치지 못함을 정량적으로 보여줌.
LLM과 인간의 창의성 평가에 대한 차이를 분석하고 그 원인을 탐구함으로써 인공지능 창의성 연구에 대한 새로운 시각 제시.
자동 평가 지표와 전문가 평가의 상관관계 분석을 통해 창의성 평가의 객관성 확보에 대한 시사점 제공.
한계점:
5문장이라는 제한된 길이의 단편 소설을 기반으로 평가하여 LLM의 장편 소설 창작 능력에 대한 일반화는 어려움.
평가 지표의 한계로 인해 창의성의 모든 측면을 완벽하게 포착하지 못할 가능성 존재.
비전문가와 전문가 간의 평가 차이에 대한 심층적인 분석이 부족.
사용된 LLM의 종류와 특성에 대한 자세한 설명이 부족하여 결과의 일반화 가능성에 대한 의문 제기.
👍