Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

NorEval: A Norwegian Language Understanding and Generation Evaluation Benchmark

Created by
  • Haebom

저자

Vladislav Mikhailov, Tita Enstad, David Samuel, Hans Christian Farseth{\aa}s, Andrey Kutuzov, Erik Velldal, Lilja {\O}vrelid

개요

NorEval은 노르웨이어 생성형 언어 모델(LM)을 위한 대규모 표준화된 벤치마킹을 위한 새롭고 포괄적인 평가 도구입니다. 24개의 고품질 인간 생성 데이터셋(5개는 새로 생성)으로 구성되며, 기존 노르웨이어 벤치마크와 달리 노르웨이어 이해 및 생성을 목표로 하는 광범위한 작업 범주를 다루고, 인간 기준선을 설정하며, 노르웨이어의 두 가지 공식적인 서면 표준인 Bokmål과 Nynorsk 모두에 중점을 둡니다. 모든 데이터셋과 100개 이상의 인간이 작성한 프롬프트는 LM Evaluation Harness에 통합되어 유연하고 재현 가능한 평가를 보장합니다. 본 논문에서는 NorEval 설계를 설명하고 다양한 시나리오에서 19개의 오픈소스 사전 훈련 및 지시 조정 노르웨이어 LM에 대한 벤치마킹 결과를 제시합니다. 벤치마크, 평가 프레임워크 및 주석 자료는 공개적으로 제공됩니다.

시사점, 한계점

시사점:
노르웨이어 생성형 언어 모델의 종합적인 평가를 위한 새로운 벤치마크 NorEval 제시
Bokmål과 Nynorsk 두 가지 표준어 모두를 포함하는 광범위한 작업 범주 다룸
인간 기준선 설정 및 재현 가능한 평가 프레임워크 제공
19개의 오픈소스 모델에 대한 벤치마킹 결과 공개 및 자료 공개
한계점:
논문에서 명시적으로 언급된 한계점은 없음. 향후 연구를 통해 NorEval의 한계점을 밝히고 개선할 수 있을 것임.
👍