본 연구는 터키어를 위한 17개의 벤치마크 데이터셋의 질적 평가를 통해, 저자원 언어를 위한 데이터셋 구축 및 활용의 어려움을 다룹니다. 영어 또는 다국어 자원에서 번역 또는 각색된 데이터셋에 대한 의존성이 언어적 및 문화적 적합성 문제를 야기한다는 점을 지적하며, 6가지 기준에 기반한 포괄적인 평가 프레임워크를 사용하여 사람과 LLM(대규모 언어 모델) 판정자 모두의 평가를 수행합니다. 평가 결과, 70%의 벤치마크 데이터셋이 품질 기준을 충족하지 못하며, 특히 전문 용어의 사용 정확성이 가장 중요한 기준으로 나타났습니다. LLM 판정자는 사람 판정자보다 효율성이 낮지만, GPT-4와 Llama 3.3-70B는 각각 문법 및 기술적 과제, 정확성 및 문화적 지식 평가에서 강점을 보였습니다.
시사점, 한계점
•
시사점: 저자원 언어를 위한 데이터셋 개발 시 엄격한 품질 관리의 필요성을 강조합니다. LLM을 데이터셋 평가에 활용할 수 있지만, 사람 평가자의 중요성을 보여줍니다. 특히 문화적 상식 및 자연스러운 언어 이해에는 사람 평가자가 더 효과적임을 시사합니다. GPT-4와 Llama 3.3-70B와 같은 LLM의 특정 분야에 대한 강점을 확인했습니다.
•
한계점: 본 연구는 17개의 터키어 데이터셋에 국한되어 일반화에 제한이 있습니다. LLM 평가자의 성능이 사람 평가자보다 낮다는 점은 향후 LLM 기반 자동 평가 시스템 개발에 대한 추가 연구가 필요함을 시사합니다. 6가지 평가 기준의 구체적인 내용이 부족하여 평가의 객관성과 신뢰성에 대한 추가적인 검토가 필요할 수 있습니다.