Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

An Empirical Comparison of Text Summarization: A Multi-Dimensional Evaluation of Large Language Models

Created by
  • Haebom

저자

Anantharaman Janakiraman, Behnaz Ghoraani

개요

본 연구는 17개의 대규모 언어 모델(OpenAI, Google, Anthropic, 오픈소스 포함)을 사용하여 텍스트 요약 성능을 평가하는 것을 목표로 합니다. 7개의 다양한 데이터셋(BigPatent, BillSum, CNN/DailyMail, PubMed, SAMSum, WikiHow, XSum)과 세 가지 출력 길이(50, 100, 150 토큰)에 걸쳐 사실 일관성, 의미적 유사성, 어휘 중복, 인간과 유사한 품질 등의 지표와 효율성을 고려하여 모델들을 평가했습니다. 실험 결과, 특정 모델들은 사실 정확도(deepseek-v3), 인간과 유사한 품질(claude-3-5-sonnet), 처리 효율/비용 효율성(gemini-1.5-flash, gemini-2.0-flash)에서 뛰어난 성능을 보였으며, 데이터셋에 따라 성능 차이가 크게 나타났습니다(기술 분야에서는 어려움을 겪는 반면, 대화형 콘텐츠에서는 좋은 성능을 보임). 또한 사실 일관성(50토큰에서 최고)과 인식된 품질(150토큰에서 최고) 사이의 중요한 긴장 관계를 확인했습니다. 본 연구는 정확성, 효율성, 비용 효율성 간의 상충 관계를 고려하여 특정 응용 프로그램에 적합한 모델 선택을 위한 증거 기반 권장 사항을 제공합니다.

시사점, 한계점

시사점:
다양한 대규모 언어 모델의 텍스트 요약 성능을 다차원적으로 비교 분석하여, 각 모델의 강점과 약점을 명확히 제시했습니다.
데이터셋 특성에 따른 모델 성능 차이를 규명하여, 사용 목적에 맞는 모델 선택을 위한 지침을 제공했습니다.
사실 정확도와 품질 간의 상충 관계를 밝히고, 이를 고려한 모델 선택 전략을 제시했습니다.
효율성 및 비용 효과적인 측면까지 고려한 종합적인 평가 방법론을 제시했습니다.
한계점:
평가에 사용된 데이터셋의 종류와 수가 제한적일 수 있습니다.
새로운 모델이나 데이터셋이 등장함에 따라 결과의 일반화 가능성에 한계가 있을 수 있습니다.
인간의 주관적인 판단이 개입되는 평가 지표의 경우, 객관성 확보에 어려움이 있을 수 있습니다.
특정 도메인(기술 분야)에서 모델 성능이 저조한 이유에 대한 심층적인 분석이 부족할 수 있습니다.
👍