Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Evaluating the Quality of Benchmark Datasets for Low-Resource Languages: A Case Study on Turkish

Created by
  • Haebom

저자

Ay\c{s}e Aysu Cengiz, Ahmet Kaan Sever, Elif Ecem Umutlu, Naime \c{S}eyma Erdem, Burak Aytan, Bu\c{s}ra Tufan, Abdullah Topraksoy, Esra Dar{\i}c{\i}, Cagri Toraman

개요

본 연구는 터키어를 위한 17개의 벤치마크 데이터셋의 질적 평가를 통해, 저자원 언어를 위한 데이터셋 구축 및 활용의 어려움을 다룹니다. 영어 또는 다국어 자원에서 번역 또는 각색된 데이터셋에 대한 의존성이 언어적 및 문화적 적합성 문제를 야기한다는 점을 지적하며, 6가지 기준에 기반한 포괄적인 평가 프레임워크를 사용하여 사람과 LLM(대규모 언어 모델) 판정자 모두의 평가를 수행합니다. 평가 결과, 70%의 벤치마크 데이터셋이 품질 기준을 충족하지 못하며, 특히 전문 용어의 사용 정확성이 가장 중요한 기준으로 나타났습니다. LLM 판정자는 사람 판정자보다 효율성이 낮지만, GPT-4와 Llama 3.3-70B는 각각 문법 및 기술적 과제, 정확성 및 문화적 지식 평가에서 강점을 보였습니다.

시사점, 한계점

시사점: 저자원 언어를 위한 데이터셋 개발 시 엄격한 품질 관리의 필요성을 강조합니다. LLM을 데이터셋 평가에 활용할 수 있지만, 사람 평가자의 중요성을 보여줍니다. 특히 문화적 상식 및 자연스러운 언어 이해에는 사람 평가자가 더 효과적임을 시사합니다. GPT-4와 Llama 3.3-70B와 같은 LLM의 특정 분야에 대한 강점을 확인했습니다.
한계점: 본 연구는 17개의 터키어 데이터셋에 국한되어 일반화에 제한이 있습니다. LLM 평가자의 성능이 사람 평가자보다 낮다는 점은 향후 LLM 기반 자동 평가 시스템 개발에 대한 추가 연구가 필요함을 시사합니다. 6가지 평가 기준의 구체적인 내용이 부족하여 평가의 객관성과 신뢰성에 대한 추가적인 검토가 필요할 수 있습니다.
👍