NorEval: A Norwegian Language Understanding and Generation Evaluation Benchmark
Created by
Haebom
저자
Vladislav Mikhailov, Tita Enstad, David Samuel, Hans Christian Farseth{\aa}s, Andrey Kutuzov, Erik Velldal, Lilja {\O}vrelid
개요
NorEval은 노르웨이어 생성형 언어 모델(LM)을 위한 대규모 표준화된 벤치마킹을 위한 새롭고 포괄적인 평가 도구입니다. 24개의 고품질 인간 생성 데이터셋(5개는 새로 생성)으로 구성되며, 기존 노르웨이어 벤치마크와 달리 노르웨이어 이해 및 생성을 목표로 하는 광범위한 작업 범주를 다루고, 인간 기준선을 설정하며, 노르웨이어의 두 가지 공식적인 서면 표준인 Bokmål과 Nynorsk 모두에 중점을 둡니다. 모든 데이터셋과 100개 이상의 인간이 작성한 프롬프트는 LM Evaluation Harness에 통합되어 유연하고 재현 가능한 평가를 보장합니다. 본 논문에서는 NorEval 설계를 설명하고 다양한 시나리오에서 19개의 오픈소스 사전 훈련 및 지시 조정 노르웨이어 LM에 대한 벤치마킹 결과를 제시합니다. 벤치마크, 평가 프레임워크 및 주석 자료는 공개적으로 제공됩니다.
시사점, 한계점
•
시사점:
◦
노르웨이어 생성형 언어 모델의 종합적인 평가를 위한 새로운 벤치마크 NorEval 제시
◦
Bokmål과 Nynorsk 두 가지 표준어 모두를 포함하는 광범위한 작업 범주 다룸
◦
인간 기준선 설정 및 재현 가능한 평가 프레임워크 제공
◦
19개의 오픈소스 모델에 대한 벤치마킹 결과 공개 및 자료 공개
•
한계점:
◦
논문에서 명시적으로 언급된 한계점은 없음. 향후 연구를 통해 NorEval의 한계점을 밝히고 개선할 수 있을 것임.