Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

FarsEval-PKBETS: A new diverse benchmark for evaluating Persian large language models

Created by
  • Haebom

저자

Mehrnoush Shamsfard, Zahra Saaberi, Mostafa Karimi manesh, Seyed Mohammad Hossein Hashemi, Zahra Vatankhah, Motahareh Ramezani, Niki Pourazin, Tara Zare, Maryam Azimi, Sarina Chitsaz, Sama Khoraminejad, Morteza Mahdavi Mortazavi, Mohammad Mahdi Chizari, Sahar Maleki, Seyed Soroush Majd, Mostafa Masumi, Sayed Ali Musavi Khoeini, Amir Mohseni, Sogol Alipour

개요

FarsEval-PKBETS 벤치마크는 페르시아어를 사용하는 대규모 언어 모델(LLM)을 평가하기 위한 FarsEval 프로젝트의 하위 집합입니다. 4000개의 질문과 답변(객관식, 단답형, 서술형)으로 구성되며, 의학, 법률, 종교, 페르시아어, 백과사전 지식, 인간의 선호도, 사회적 지식, 윤리 및 편향, 텍스트 생성, 타인의 권리 존중 등 다양한 영역과 과제를 다룹니다. 페르시아어 및 이란 문화적, 지역적 고려 사항을 통합하여 현재 LLM에게 도전적인 질문을 구성하였으며, Llama3-70B, PersianMind, Dorna 모델을 평가한 결과 평균 정확도가 50% 미만으로 나타났습니다. 이는 현재 LLM이 이 벤치마크를 해결하는 데에는 아직 미흡하다는 것을 시사합니다.

시사점, 한계점

시사점: 페르시아어 LLM 성능 평가를 위한 새로운 벤치마크 FarsEval-PKBETS 제시. 현재 LLM의 페르시아어 이해 및 문제 해결 능력의 한계를 보여줌. 다양한 영역과 과제를 포함하여 포괄적인 평가 가능. 페르시아어 및 이란 문화적 맥락을 고려한 평가.
한계점: 벤치마크의 규모(4000개 질문)가 상대적으로 작을 수 있음. 평가 대상 모델이 제한적임 (Llama3-70B, PersianMind, Dorna). 벤치마크의 질문 난이도 및 객관성에 대한 추가적인 검증 필요. 향후 더 많은 모델과 더 큰 데이터셋을 사용한 추가 연구 필요.
👍