Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Emergent Abilities of Large Language Models under Continued Pretraining for Language Adaptation

Created by
  • Haebom

作者

Ahmed Elhady, Eneko Agirre, Mikel Artetxe

概要

この論文では、既存の大規模言語モデル(LLM)を新しい言語に適用するための一般的な方法である継続的辞書トレーニング(CPT)における英語データの役割を調査します。研究の結果、英語データを含めることは検証の多様性には影響しませんが、ターゲット言語の後続の作業能力の向上に重要な役割を果たすことを明らかにしました。英語のデータが含まれていない場合、文脈内学習(ICL)で致命的な忘却が発生し、これはターゲット言語の後続のプロンプトの一般化能力の低下につながります。これらの問題を解決するために、カリキュラム学習と重みの指数移動平均(EMA)を効果的な選択肢として提示します。結論として、この論文は、言語適応のためのCPTで新たに登場する能力のダイナミクスを明らかにし、将来のより効果的な方法を設計するための基礎を築きます。

Takeaways、Limitations

Takeaways:
英語データがCPTにおける目標言語の後続の作業能力の向上に不可欠であることを明らかにした。
英語データが含まれていない場合に発生する致命的な忘却現象とその影響を解明。
カリキュラム学習とEMAを英語のデータを使用する効果的な代替として提示。
CPTから新たに登場する能力のダイナミクスの理解を促進する。
Limitations:
提示された代替案(カリキュラム学習、EMA)の一般性と他の言語ペアへの適用性に関するさらなる研究が必要です。
英語データの役割のより深いメカニズムの解明が必要です。
提案された方法の効率と拡張性のための追加の実験と分析の必要性
👍