Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Conda: Column-Normalized Adam for Training Large Language Models Faster

Created by
  • Haebom

作者

Junjie Wang, Pan Zhou, Yiming Dong, Huan Li, Jia Li, Xun Zhou, Qicheng Lao, Cong Fang, Zhouchen Lin

Column-Normalized Adam (Conda) 論文のまとめ

概要

Condaは、大規模言語モデル(LLM)のトレーニング効率を向上させるために開発された新しいオプティマイザです。 Adamの速い収束速度とMuonのスペクトル正規化の利点を組み合わせることで、Adamの欠点であるスペクトル不安定性を軽減しながら、座標固有の適応性を維持します。 Condaは更新を直交空間に投影し、投影された勾配に基づいて列別の二次モーメント正規化を適用します。 LLaMAおよびGPT-2シリーズの実験では、CondaはAdamW、Muonなどの他のオプティマイザよりも一貫して優れた性能を示し、LLaMAシリーズではAdamWより2〜2.5倍速い収束速度を達成しました。

Takeaways、Limitations

Takeaways:
CondaはLLMトレーニングの収束速度を大幅に向上させる効果的なオプティマイザです。
AdamW、Muonなど、さまざまなベースのオプティマイザよりも優れたパフォーマンスを発揮します。
さまざまなトレーニング環境で堅牢なパフォーマンスを発揮します。
Limitations:
本論文のLimitationsは明記されていない。
👍