본 연구는 17개의 대규모 언어 모델(OpenAI, Google, Anthropic, 오픈소스 포함)을 사용하여 텍스트 요약 성능을 평가하는 것을 목표로 합니다. 7개의 다양한 데이터셋(BigPatent, BillSum, CNN/DailyMail, PubMed, SAMSum, WikiHow, XSum)과 세 가지 출력 길이(50, 100, 150 토큰)에 걸쳐 사실 일관성, 의미적 유사성, 어휘 중복, 인간과 유사한 품질 등의 지표와 효율성을 고려하여 모델들을 평가했습니다. 실험 결과, 특정 모델들은 사실 정확도(deepseek-v3), 인간과 유사한 품질(claude-3-5-sonnet), 처리 효율/비용 효율성(gemini-1.5-flash, gemini-2.0-flash)에서 뛰어난 성능을 보였으며, 데이터셋에 따라 성능 차이가 크게 나타났습니다(기술 분야에서는 어려움을 겪는 반면, 대화형 콘텐츠에서는 좋은 성능을 보임). 또한 사실 일관성(50토큰에서 최고)과 인식된 품질(150토큰에서 최고) 사이의 중요한 긴장 관계를 확인했습니다. 본 연구는 정확성, 효율성, 비용 효율성 간의 상충 관계를 고려하여 특정 응용 프로그램에 적합한 모델 선택을 위한 증거 기반 권장 사항을 제공합니다.