본 논문은 바스크어와 스페인어에 대한 자동 텍스트 요약 평가 지표 및 LLM-as-a-Judge 모델 연구의 부족을 해결하기 위해 BASSE 데이터셋을 제시합니다. BASSE는 5개의 LLM과 4가지 프롬프트를 사용하여 생성된 2,040개의 추상적 요약에 대한 인간 판단을 포함하며, 일관성, 유창성, 관련성, 5W1H 등 5가지 기준에 대한 5점 리커트 척도 평가를 담고 있습니다. 이 데이터를 사용하여 기존 자동 평가 지표와 여러 LLM-as-a-Judge 모델의 성능을 재평가하였으며, 그 결과 독점적인 Judge LLM이 가장 높은 상관관계를 보였고, 기준별 자동 지표가 그 뒤를 이었으며 오픈소스 Judge LLM은 성능이 저조한 것으로 나타났습니다. 또한 BASSE 데이터셋과 코드, 그리고 22,525개의 바스크어 뉴스 기사와 소제목으로 구성된 대규모 바스크어 요약 데이터셋을 공개합니다.