Charting the European LLM Benchmarking Landscape: A New Taxonomy and a Set of Best Practices
Created by
Haebom
Category
Empty
저자
\v{S}pela Vintar, Taja Kuzman Punger\v{s}ek, Mojca Brglez, Nikola Ljube\v{s}ic
개요
LLM의 성능 향상에 맞춰 새로운 벤치마크가 지속적으로 개발되고 있지만, 비영어권 언어에서의 LLM 사용 및 평가는 상대적으로 연구가 미흡한 분야이다. 본 논문은 LLM 벤치마킹의 최근 동향을 간략하게 요약하고, 다국어 또는 비영어권 사용 시나리오에 특화된 새로운 벤치마크 분류 체계를 제안한다. 또한 유럽 언어에 대한 벤치마크 개발을 위한 모범 사례 및 품질 기준을 제시하며, 평가 방법의 언어 및 문화적 민감성을 높일 것을 권고한다.