Polishing Every Facet of the GEM: Testing Linguistic Competence of LLMs and Humans in Korean
Created by
Haebom
저자
SungHo Kim, Nayeon Kim, Taehee Jeon, SangKeun Lee
개요
KoGEM (Korean Grammar Evaluation Benchmark)은 한국어의 언어 능력을 평가하기 위해 설계된 1.5k개의 객관식 QA 쌍으로 구성된 벤치마크입니다. 다섯 가지 주요 범주와 16개의 하위 범주를 다루며, 다양한 크기와 유형의 27개 LLM에 대한 제로샷 평가를 통해 LLM이 정의적 지식을 필요로 하는 단순한 작업에서는 뛰어난 성능을 보이지만, 음운 규칙이나 발음과 같이 실제 세계 경험적 지식의 통합을 요구하는 작업에서는 어려움을 겪는다는 것을 보여줍니다. 본 연구는 KoGEM을 통해 현재 LLM의 언어 능력의 한계를 강조하고, LLM의 언어 능력의 숨겨진 측면을 밝혀냄으로써 포괄적인 언어 이해 향상을 위한 길을 열고 있습니다. 코드와 데이터셋은 https://github.com/SungHo3268/KoGEM 에서 이용 가능합니다.