Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

TUMLU: A Unified and Native Language Understanding Benchmark for Turkic Languages

Created by
  • Haebom

저자

Jafar Isbarov, Arofat Akhundjanova, Mammad Hajili, Kavsar Huseynova, Dmitry Gaynullin, Anar Rzayev, Osman Tursun, Aizirek Turdubaeva, Ilshat Saetov, Rinat Kharisov, Saule Belginova, Ariana Kenbayeva, Amina Alisheva, Abdullatif Koksal, Samir Rustamov, Duygu Ataman

개요

본 논문은 저자원 언어인 투르크어족에 대한 대규모 다중 작업 언어 이해(MMLU) 벤치마크의 부족을 해결하기 위해, 8개 투르크어(아제르바이잔어, 크림 타타르어, 카라칼팍어, 카자흐어, 타타르어, 터키어, 위구르어, 우즈베크어)를 포함하는 새로운 벤치마크 TUMLU를 제안합니다. TUMLU는 중고등학교 수준의 11개 학문 분야 질문으로 구성되며, 더 간결하고 검증된 하위 집합인 TUMLU-mini도 함께 제공합니다. 본 논문에서는 Claude, Gemini, GPT, LLaMA 등 다양한 다국어 LLM들을 TUMLU를 이용하여 평가하고, 언어, 과목, 알파벳별 성능 분석을 제공합니다. TUMLU-mini와 평가 스크립트는 공개되어 추가 연구를 지원합니다.

시사점, 한계점

시사점:
저자원 언어, 특히 투르크어족에 대한 MMLU 벤치마크를 제공하여 다국어 LLM 연구에 기여.
기존 기계 번역 기반 벤치마크의 한계를 극복하고, 모국어 기반 데이터셋을 제공.
다양한 다국어 LLM들의 언어, 과목, 알파벳별 성능 비교 분석 제공.
TUMLU-mini 및 평가 스크립트 공개를 통한 연구 활성화.
한계점:
TUMLU는 특정 언어족(투르크어족)에 집중되어 있어 일반화된 MMLU 평가에는 제한적일 수 있음.
중고등학교 수준 질문으로 구성되어 있어, 다른 난이도의 질문에 대한 LLM 성능은 알 수 없음.
평가 대상 LLM이 제한적일 수 있으며, 최신 LLM에 대한 평가가 필요할 수 있음.
👍