Sign In

Consistency Evaluation of News Article Summaries Generated by Large (and Small) Language Models

Created by
  • Haebom
Category
Empty

저자

Colleen Gilhuly, Haleh Shahzad

개요

본 논문은 다양한 기법(TextRank, BART, Mistral-7B-Instruct, OpenAI GPT-3.5-Turbo)을 사용하여 텍스트 요약을 수행하고, ROUGE Score, BERT Score와 같은 기존 지표와 소스 텍스트와의 일관성을 직접 평가하는 LLM 기반 평가 방법을 사용하여 생성된 요약을 평가합니다. LLM 평가 시스템의 성능을 직접 평가하는 메타 평가 점수를 도입하여 XL-Sum 데이터셋에서 모든 요약 모델이 참조 요약보다 일관성 있는 요약을 생성함을 발견했습니다. LLM 기반의 요약 모델이 우수한 성능을 보이지만, 환각된 세부 정보를 생성할 수 있다는 점을 지적하며, 자동화된 고품질 평가의 중요성을 강조합니다.

시사점, 한계점

시사점:
다양한 요약 모델의 성능 비교를 통해 최적의 모델 선택에 대한 통찰력 제공.
LLM 기반 평가 방법을 활용하여 요약의 질적 평가 향상 가능성 제시.
메타 평가 점수 도입을 통한 LLM 평가 시스템의 성능 평가 및 개선 가능성 제시.
XL-Sum 데이터셋에서 모든 모델이 참조 요약보다 일관성 있는 요약을 생성한다는 사실 발견.
한계점:
특정 데이터셋(XL-Sum)에 대한 결과만 제시되어 일반화 가능성에 대한 검토 필요.
LLM 기반 평가 방법의 신뢰성 및 객관성에 대한 추가적인 연구 필요.
환각된 세부 정보 생성 문제에 대한 해결책 제시 부족.
사용된 LLM 모델의 특성과 한계에 대한 충분한 고찰 부족.
👍