Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Can GPT models Follow Human Summarization Guidelines? A Study for Targeted Communication Goals

Created by
  • Haebom

저자

Yongxin Zhou, Fabien Ringeval, Fran\c{c}ois Portet

개요

본 연구는 ChatGPT, GPT-4, GPT-4o와 같은 GPT 모델들이 인간의 지침을 준수하는 대화 요약을 생성하는 능력을 조사합니다. DialogSum (영어 소셜 대화) 및 DECODA (프랑스어 콜센터 상호 작용) 두 데이터셋을 사용하여 다양한 프롬프트를 통해 모델의 지침 준수 여부를 실험했습니다. 요약 지침을 기반으로 한 인간 평가를 주요 평가 방법으로 사용하고, 광범위한 정량적 및 정성적 분석을 보완했습니다. 연구 결과, GPT 모델이 때때로 더 긴 결과물을 생성하고 참조와 어휘 및 구조적 정렬이 다르게 나타나더라도, 인간 지침을 따르는 능력을 보여주어 특정 작업에 대해 사전 훈련된 모델 및 참조 요약보다 GPT 생성 요약을 선호하는 것으로 나타났습니다. ROUGE, BERTScore 및 인간 평가 간의 불일치는 더 신뢰할 수 있는 자동 평가 지표의 필요성을 강조합니다.

시사점, 한계점

시사점: GPT 모델들이 인간의 지침을 준수하여 대화 요약을 생성하는 능력을 보여줌. 특정 작업에 대해 사전 훈련된 모델보다 GPT 모델 생성 요약이 더 우수함을 확인.
한계점: GPT 모델이 때때로 더 긴 요약을 생성하고, 참조 요약과의 어휘 및 구조적 정렬이 다름. ROUGE와 BERTScore와 같은 자동 평가 지표가 인간 평가와 일치하지 않아 더 나은 자동 평가 지표 개발의 필요성 제기.
👍