Mind the Gap: A Review of Arabic Post-Training Datasets and Their Limitations
Created by
Haebom
作者
Mohammed Alkhowaiter, Norah Alshahrani, Saied Alshahrani, Reem I. Masoud, Alaa Alzahrani, Deema Alnuhait, Emad A. Alghamdi, Khalid Almubarak
アラビア語 Post-training データセットのレビュー
概要
この論文では、Hugging Face Hubで公開されたアラビア語のPost-trainingデータセットを検討し、LLMの能力、操作性、ソート、堅牢性など4つの主要な次元に分類します。各データセットは、人気、実際の使用、最新性、メンテナンス、文書化、注釈品質、ライセンスの透明性、科学的貢献度に基づいて評価されます。アラビア語のPost-trainingデータセットの開発のギャップを発見し、アラビア語を中心としたLLMとアプリケーションの進化に与える影響について議論し、将来のアラビア語のPost-trainingデータセットを開発するための具体的な勧告を提示します。