Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

From Spikes to Heavy Tails: Unveiling the Spectral Evolution of Neural Networks

Created by
  • Haebom

作者

Vignesh Kothapalli, Tianyu Pang, Shenyang Deng, Zongmin Liu, Yaoqing Yang

概要

この論文は、現代の深層ニューラルネットワーク(DNN)のトレーニング戦略が、階層重みでヘビーテール(HT)経験的スペクトル密度(ESD)を引き起こす傾向があることをカバーしています。以前の研究は、HT現象が大規模NNで良好な一般化と相関していることを示したが、その発生の理論的説明は依然として不足している。特に、この現象を引き起こす条件を理解することは、一般化と重みスペクトルとの間の相互作用を明らかにするのに役立ちます。この研究は、HT ESDの出現をモデル化するためのシンプルで豊富な設定を提供することによってこれらのギャップを埋めることを目的としています。特に、二層NNのESDでヘビーテールを「作る」理論に基づく設定を提示し、いかなる勾配ノイズもなくHT ESD出現の体系的な分析を提示します。これはノイズのない設定を分析した最初の研究であり、オプティマイザ(GD / Adam)に依存する(大きな)学習率をHT ESD分析に統合します。研究結果は、訓練の初期段階でESDのBulk + SpikeとHTの形態に対する学習率の役割を強調し、これは二層NNで一般化を促進することができます。これらの観察ははるかに単純な設定ですが、大規模なNNの動作に関する洞察を提供します。

Takeaways、Limitations

Takeaways:
二層NNでのヘビテールESDの出現の理論的理解を提供します。
ノイズのない設定でHT ESDの出現を最初に分析します。
学習率がESD形態と一般化に与える影響を明らかにします。
大規模なNNの動作に関する洞察を提供します。
Limitations:
分析は二層NNに限定される。
実際の大規模なNNの複雑さを完全に捉えることはできません。
他のトレーニング戦略やネットワーク構造に対する一般化の可能性は限られている可能性があります。
👍