Sign In

Palm: A Culturally Inclusive and Linguistically Diverse Dataset for Arabic LLMs

Created by
  • Haebom
Category
Empty

저자

Fakhraddin Alwajih, Abdellah El Mekki, Samar Mohamed Magdy, Abdelrahim A. Elmadany, Omer Nacar, El Moatez Billah Nagoudi, Reem Abdel-Salam, Hanin Atwany, Youssef Nafea, Abdulfattah Mohammed Yahya, Rahaf Alhamouri, Hamzah A. Alsayadi, Hiba Zayed, Sara Shatnawi, Serry Sibaee, Yasir Ech-Chammakhy, Walid Al-Dhabyani, Marwa Mohamed Ali, Imen Jarraya, Ahmed Oumar El-Shangiti, Aisha Alraeesi, Mohammed Anwar Al-Ghrawi, Abdulrahman S. Al-Batati, Elgizouli Mohamed, Noha Taha Elgindi, Muhammed Saeed, Houdaifa Atou, Issam Ait Yahia, Abdelhak Bouayad, Mohammed Machrouh, Amal Makouar, Dania Alkawi, Mukhtar Mohamed, Safaa Taher Abdelfadil, Amine Ziad Ounnoughene, Rouabhia Anfel, Rwaa Assi, Ahmed Sorkatti, Mohamedou Cheikh Tourad, Anis Koubaa, Ismail Berrada, Mustafa Jarrar, Shady Shehata, Muhammad Abdul-Mageed

개요

본 논문은 대규모 언어 모델(LLM)의 문화적 민감성과 포괄성을 확보하기 위해 아랍권 22개국을 아우르는 대규모 데이터셋을 구축하고, 이를 이용하여 여러 최첨단 LLM의 문화적 및 방언적 역량을 평가한 연구이다. 1년간 44명의 아랍권 연구자들이 참여한 커뮤니티 기반 프로젝트를 통해 현대 표준 아랍어(MSA)와 방언 아랍어(DA)로 된 20개의 다양한 주제에 대한 지시어(입력, 응답 쌍) 데이터를 수집하였다. 평가 결과, 폐쇄형 LLM은 우수한 성능을 보였으나 결함이 없지는 않았고, 소규모 오픈소스 모델은 더 큰 어려움을 겪는 것으로 나타났다. 또한, 이집트나 UAE와 같이 잘 반영된 국가와 이라크, 모리타니, 예멘과 같이 부족하게 반영된 국가 간의 불균형도 확인되었다. 재현성을 위해 주석 가이드라인, 코드 및 데이터를 공개하였다.

시사점, 한계점

시사점:
아랍권의 문화적 다양성을 고려한 LLM 평가를 위한 대규모 다국어 데이터셋 제공.
최첨단 LLM의 문화적 및 방언적 역량에 대한 실증적 분석 결과 제시.
LLM 개발 시 문화적 편향성 및 데이터 불균형 문제 해결의 중요성 강조.
재현 가능한 연구를 위한 데이터, 코드, 주석 가이드라인 공개.
한계점:
특정 국가의 데이터 과소대표 문제 존재.
폐쇄형 LLM의 성능 우수에도 불구하고, 여전히 개선의 여지가 있음.
소규모 오픈소스 모델의 성능 저하 문제.
👍