Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Fantastic Pretraining Optimizers and Where to Find Them

Created by
  • Haebom

作者

Kaiyue Wen, David Hall, Tengyu Ma, Percy Liang

概要

この論文は、大規模言語モデルの事前訓練でAdamWを置き換えることができる最適化アルゴリズムの高速化の主張に関する体系的な研究結果を提供します。従来の研究の比較は、不公平なハイパーパラメータの調整と制限された評価設定によって歪められたという問題を指摘し、4つのモデルサイズとデータモデル比で10の最適化アルゴリズムを比較分析しました。研究は、公正な比較のために、厳格なハイパーパラメータのチューニングと、さまざまなモデルサイズとデータモデルの比率のトレーニング終了時点の評価が不可欠であることを明らかにしました。さらに、既存の研究で主張されている速度の向上は実際には低く、モデルサイズが大きくなるにつれて減少する傾向があることがわかりました。特に、MuonやSoapなどの最速の最適化アルゴリズムは行列を前処理として使用しますが、その速度向上はモデルサイズに反比例して減少することがわかりました。

Takeaways、Limitations

Takeaways:
大規模言語モデル事前訓練における最適化アルゴリズムの高速化に関する既存の研究結果の信頼性に関する疑問
公平な最適化アルゴリズムを比較するための厳密なハイパーパラメータチューニングと包括的な評価方法の提示
行列ベースの前処理器を用いた最適化アルゴリズムの速度向上はモデルサイズに応じて減少することを確認した。
AdamWを凌駕する速度向上は、モデル規模が大きくなるにつれて微小になることを実験的に証明。
Limitations:
本研究で検討されている最適化アルゴリズムとモデルサイズ、データモデルの比率は限られている可能性があります。
他の種類の言語モデルや作業の一般化の可能性に関するさらなる研究が必要
より多様なハイパーパラメータ空間探索により、より洗練された比較が必要になる可能性があります。
👍