본 연구는 ChatGPT, GPT-4, GPT-4o와 같은 GPT 모델들이 인간의 지침을 준수하는 대화 요약을 생성하는 능력을 조사합니다. DialogSum (영어 소셜 대화) 및 DECODA (프랑스어 콜센터 상호 작용) 두 데이터셋을 사용하여 다양한 프롬프트를 통해 모델의 지침 준수 여부를 실험했습니다. 요약 지침을 기반으로 한 인간 평가를 주요 평가 방법으로 사용하고, 광범위한 정량적 및 정성적 분석을 보완했습니다. 연구 결과, GPT 모델이 때때로 더 긴 결과물을 생성하고 참조와 어휘 및 구조적 정렬이 다르게 나타나더라도, 인간 지침을 따르는 능력을 보여주어 특정 작업에 대해 사전 훈련된 모델 및 참조 요약보다 GPT 생성 요약을 선호하는 것으로 나타났습니다. ROUGE, BERTScore 및 인간 평가 간의 불일치는 더 신뢰할 수 있는 자동 평가 지표의 필요성을 강조합니다.