Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

STORYSUMM: Evaluating Faithfulness in Story Summarization

Created by
  • Haebom

저자

Melanie Subbiah, Faisal Ladhak, Akankshya Mishra, Griffin Adams, Lydia B. Chilton, Kathleen McKeown

개요

본 논문은 서사적 요약에서의 충실도 검증에 있어 기존의 인간 평가 방식의 한계를 지적하고, 새로운 데이터셋 STORYSUMM을 제시합니다. STORYSUMM은 단편 소설에 대한 LLM 요약과 국소적인 충실도 레이블 및 오류 설명으로 구성되어 있으며, 다양한 충실도 평가 방법의 성능을 검증하는 데 사용됩니다. 논문은 인간 어노테이션 프로토콜의 한계를 보여주고, 다양한 방법론을 통한 정답 생성의 중요성을 강조합니다. 또한 기존 자동 평가 지표들의 성능이 70%의 균형 정확도를 넘지 못함을 보여주며, 충실도 평가 분야의 향후 연구 과제를 제시합니다.

시사점, 한계점

시사점:
서사적 요약에서의 충실도 평가를 위한 새로운 데이터셋 STORYSUMM 제시
인간 어노테이션의 한계를 보여주고 다양한 방법론을 통한 정답 생성의 중요성 강조
기존 자동 평가 지표의 성능 한계를 밝히고 향후 연구 방향 제시
한계점:
STORYSUMM 데이터셋의 규모 및 다양성에 대한 추가적인 검토 필요
제시된 자동 평가 지표 외 다른 지표들에 대한 추가적인 실험 필요
인간 평가자 간의 일관성 확보를 위한 보다 효율적인 어노테이션 프로토콜 개발 필요
👍