Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Towards Multi-dimensional Evaluation of LLM Summarization across Domains and Languages

Created by
  • Haebom

저자

Hyangsuk Min, Yuho Lee, Minjeong Ban, Jiaqi Deng, Nicole Hee-Yeon Kim, Taewon Yun, Hang Su, Jason Cai, Hwanjun Song

개요

MSumBench는 영어와 중국어로 된 요약에 대한 다차원적이고 다영역적인 평가를 제공하는 새로운 벤치마크입니다. 기존 벤치마크의 한계인 특정 영역 평가 기준의 부족, 영어 중심적인 편향, 복잡한 추론으로 인한 어려운 인간 주석 작업 등을 해결하기 위해, 각 영역에 특화된 평가 기준을 통합하고 다중 에이전트 논쟁 시스템을 활용하여 주석 품질을 향상시켰습니다. 8개의 최신 요약 모델을 평가하여 영역과 언어 간의 성능 패턴 차이를 발견하였고, 대규모 언어 모델을 요약 평가자로 활용하여 평가 능력과 요약 능력 간의 상관관계를 분석하고, 자체 생성 요약에 대한 평가에서 체계적인 편향을 발견했습니다. 데이터셋은 공개적으로 제공됩니다.

시사점, 한계점

시사점:
다국어(영어, 중국어) 및 다영역 요약 모델 평가를 위한 새로운 벤치마크 제공
영역별 특화된 평가 기준 도입으로 보다 정교한 평가 가능
다중 에이전트 논쟁 시스템을 활용한 주석 품질 향상
대규모 언어 모델의 요약 평가 능력 및 편향 분석
공개 데이터셋 제공으로 연구 활성화
한계점:
현재 영어와 중국어 두 언어만 지원 (다른 언어 확장 필요)
다중 에이전트 논쟁 시스템의 효율성 및 일반화 가능성에 대한 추가 연구 필요
대규모 언어 모델의 평가 편향에 대한 추가적인 분석 및 완화 방안 모색 필요
👍