Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Kuwain 1.5B: An Arabic SLM via Language Injection

Created by
  • Haebom

作者

Khalil Hennara, Sara Chrouf, Mohamed Motaism Hamed, Zeina Aldallal, Omar Hadid, Safwan AlModhayan

概要

本稿では、既存の大規模言語モデル(LLM)に新しい言語を効率的に統合する新しい方法を紹介します。英語ベースの小規模オープンソースモデルにアラビア語を注入し、15億パラメータの小型モデルKuwainを学習しました。既存の知識を維持しながら、アラビア語のパフォーマンスを平均8%向上させ、英語とアラビア語の両方の包括的なモデルを訓練するよりも費用対効果の高い代替手段を提供します。これは、広範な再訓練や多くのリソースを必要とするプロセスなしに言語モデルを効率的かつ目標指向的に拡張する可能性を示しています。

Takeaways、Limitations

Takeaways:
既存のLLMに新しい言語を効率的に追加する新しい方法の提示
既存の知識損失を最小限に抑えながら、ターゲット言語のパフォーマンスを向上させる(平均8%)
大規模な再訓練なしで費用対効果の高い多言語LLM構築の可能性の提示
Limitations:
Kuwainモデルの規模が比較的小さく(15億パラメータ)、より大きなモデルに適用したときの性能は不確実である。
さまざまな言語と特定の言語ペアの一般化の可能性に関するさらなる研究が必要
提示された方法の効率は、使用されるオープンソースモデルとターゲット言語の特性によって異なります。
👍