Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Summarization Metrics for Spanish and Basque: Do Automatic Scores and LLM-Judges Correlate with Humans?

Created by
  • Haebom
Category
Empty

저자

Jeremy Barnes, Naiara Perez, Alba Bonet-Jover, Begona Altuna

개요

본 논문은 바스크어와 스페인어에 대한 자동 텍스트 요약 평가 지표 및 LLM-as-a-Judge 모델 연구의 부족을 해결하기 위해 BASSE 데이터셋을 제시합니다. BASSE는 5개의 LLM과 4가지 프롬프트를 사용하여 생성된 2,040개의 추상적 요약에 대한 인간 판단을 포함하며, 일관성, 유창성, 관련성, 5W1H 등 5가지 기준에 대한 5점 리커트 척도 평가를 담고 있습니다. 이 데이터를 사용하여 기존 자동 평가 지표와 여러 LLM-as-a-Judge 모델의 성능을 재평가하였으며, 그 결과 독점적인 Judge LLM이 가장 높은 상관관계를 보였고, 기준별 자동 지표가 그 뒤를 이었으며 오픈소스 Judge LLM은 성능이 저조한 것으로 나타났습니다. 또한 BASSE 데이터셋과 코드, 그리고 22,525개의 바스크어 뉴스 기사와 소제목으로 구성된 대규모 바스크어 요약 데이터셋을 공개합니다.

시사점, 한계점

시사점:
바스크어와 스페인어에 대한 자동 텍스트 요약 평가를 위한 새로운 대규모 데이터셋 BASSE를 제공합니다.
다양한 언어에서의 LLM-as-a-Judge 모델의 성능을 평가하고 비교 분석하여, 독점 모델의 우수성과 오픈소스 모델의 한계를 제시합니다.
기존 자동 평가 지표와 LLM-as-a-Judge 모델의 상관관계 분석을 통해 향후 연구 방향을 제시합니다.
대규모 바스크어 뉴스 기사 데이터셋을 공개하여 바스크어 자연어 처리 연구에 기여합니다.
한계점:
현재까지는 독점적인 Judge LLM이 가장 좋은 성능을 보였으나, 오픈소스 모델의 성능 개선을 위한 추가 연구가 필요합니다.
BASSE 데이터셋은 바스크어와 스페인어에 국한되어, 다른 언어로의 일반화 가능성에 대한 추가 연구가 필요합니다.
인간 판단의 주관성으로 인한 평가 지표의 한계점을 고려해야 합니다.
👍