Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

IndoPref: A Multi-Domain Pairwise Preference Dataset for Indonesian

Created by
  • Haebom
Category
Empty

저자

Vanessa Rebecca Wiyono, David Anugraha, Ayu Purwarianti, Genta Indra Winata

개요

인도네시아어는 2억 명 이상이 사용되지만, 대규모 언어 모델(LLM)을 위한 선호도 기반 연구에서 과소 대표되고 있다. 기존의 다국어 데이터셋은 영어 번역에서 파생되어 문화적, 언어적 진정성이 부족하다. 이러한 격차를 해결하기 위해, LLM이 생성한 텍스트의 자연스러움과 품질을 평가하도록 설계된 최초의 완전 수작업 및 다중 도메인 인도네시아어 선호도 데이터셋인 IndoPref를 소개한다. 이 데이터셋은 522개의 프롬프트를 포함하며, 5개의 instruction-tuned LLM 간의 비교로부터 4,099개의 인간 주석된 쌍별 선호도를 제공한다. 모든 주석은 인도네시아어로 작성되었으며, Krippendorff's alpha로 측정된 높은 주석자 간 일치도를 보인다. 이 벤치마크는 10개의 다양한 범위를 포함하여 실무자들이 LLM의 세부적인 강점과 약점을 식별할 수 있도록 한다.

시사점, 한계점

인도네시아어 LLM 연구의 부족한 부분을 채움.
문화적, 언어적 진정성을 갖춘 데이터를 제공.
다양한 LLM의 성능 평가를 위한 벤치마크를 제공.
5개의 instruction-tuned LLM만을 사용.
데이터셋의 범위를 10개 카테고리로 제한.
👍