この論文では、古典アラビア語文献の英語翻訳のための大規模で高品質のデータセットであるATHARを紹介します。古典的なアラビア語文献の重要性と翻訳の必要性を強調し、既存の制限されたデータセットの問題を指摘しています。 ATHARデータセットは、科学、文化、哲学など、さまざまな分野を含む6,6000の高品質翻訳サンプルで構成されており、最新の大規模言語モデル(LLM)の性能評価を通じて、そのデータセットの必要性と活用可能性を示しています。 HuggingFace Data Hubで公開されています。