Redefining Evaluation Standards: A Unified Framework for Evaluating the Korean Capabilities of Language Models
Created by
Haebom
저자
Hanwool Lee, Dasol Choi, Sooyong Kim, Ilgyun Jung, Sangwon Baek, Guijin Son, Inseon Hwang, Naeun Lee, Seunghyeok Hong
개요
본 논문은 한국어 대규모 언어 모델(LLM)의 성능 평가에서 나타나는 재현성 문제를 해결하기 위해, HRET(Haerae Evaluation Toolkit)이라는 오픈소스 평가 프레임워크를 제시한다. HRET는 주요 한국어 벤치마크, 다양한 추론 백엔드, 다중 평가 방법을 통합하고, 한국어 출력의 일관성을 유지하며 새로운 데이터셋, 방법 및 백엔드를 빠르게 통합할 수 있는 모듈식 레지스트리 설계를 채택했다. 표준 정확도 지표 외에도 형태소 인식 유형-토큰 비율(TTR) 및 키워드 누락 감지와 같은 한국어 특화 분석을 통해 모델 출력의 형태론적 및 의미론적 결함을 진단하고 개선 방향을 제시한다.