Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

ATHAR: A High-Quality and Diverse Dataset for Classical Arabic to English Translation

Created by
  • Haebom

作者

Mohammed Khalil, Mohammed Sabry

概要

この論文では、古典アラビア語文献の英語翻訳のための大規模で高品質のデータセットであるATHARを紹介します。古典的なアラビア語文献の重要性と翻訳の必要性を強調し、既存の制限されたデータセットの問題を指摘しています。 ATHARデータセットは、科学、文化、哲学など、さまざまな分野を含む6,6000の高品質翻訳サンプルで構成されており、最新の大規模言語モデル(LLM)の性能評価を通じて、そのデータセットの必要性と活用可能性を示しています。 HuggingFace Data Hubで公開されています。

Takeaways、Limitations

Takeaways:古典的なアラビア語翻訳研究に不可欠な大規模で高品質のデータセットを提供することで、LLMベースの翻訳システムのパフォーマンス向上に貢献できます。多様な分野を網羅するデータセット構成で、古典アラビア語文献のアクセシビリティを高め、知識拡散に寄与することができる。 LLMのfine-tuningおよびpre-trainingに利用可能性を提示する。
Limitations:データセットの規模がまだ十分ではない可能性があり、データセットの定性的偏向または不均衡のさらなる分析が必要になる場合があります。他の言語への翻訳拡張の検討が必要です。
👍