Towards Multi-dimensional Evaluation of LLM Summarization across Domains and Languages
Created by
Haebom
저자
Hyangsuk Min, Yuho Lee, Minjeong Ban, Jiaqi Deng, Nicole Hee-Yeon Kim, Taewon Yun, Hang Su, Jason Cai, Hwanjun Song
개요
MSumBench는 영어와 중국어로 된 요약에 대한 다차원적이고 다영역적인 평가를 제공하는 새로운 벤치마크입니다. 기존 벤치마크의 한계인 특정 영역 평가 기준의 부족, 영어 중심적인 편향, 복잡한 추론으로 인한 어려운 인간 주석 작업 등을 해결하기 위해, 각 영역에 특화된 평가 기준을 통합하고 다중 에이전트 논쟁 시스템을 활용하여 주석 품질을 향상시켰습니다. 8개의 최신 요약 모델을 평가하여 영역과 언어 간의 성능 패턴 차이를 발견하였고, 대규모 언어 모델을 요약 평가자로 활용하여 평가 능력과 요약 능력 간의 상관관계를 분석하고, 자체 생성 요약에 대한 평가에서 체계적인 편향을 발견했습니다. 데이터셋은 공개적으로 제공됩니다.