Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Softplus Attention with Re-weighting Boosts Length Extrapolation in Large Language Models

Created by
  • Haebom

作者

Bo Gao, Michael W. Spratling

概要

本論文は、既存のソフトマックスアテンションの数値的不安定性と長い推論トークン長での性能低下の問題を解決するための新しいアテンションメカニズムを提案する。ソフトマックス演算を非線形陽性変換と$L_1$-正規化段階に分解し、$l_1$-正規化がモデル性能の維持に不可欠であることを明らかにした。最初のステップでは、指数関数の代わりに数値的に安定したソフトプラス活性化関数と不変エントロピーベースの動的スケーリング係数を導入して、既存のソフトマックスアテンションを上回る新しいアテンションメカニズムを提示します。第2段階では、アテンション分布をシャープにする再重みメカニズムを導入し、重要な重みを増幅し、弱い重みを減らして関連トークンにさらに効果的に集中させる。この2段階のアプローチを組み合わせて、数値的安定性を確保し、長いコンテキスト抽出作業と標準ダウンストリームベンチマークで優れた結果を達成しながら、学習長さの16倍でもほぼ一定の検証損失を維持し、長さ外挿性能を劇的に向上させます。

Takeaways、Limitations

Takeaways:
ソフトマックスアテンションの数値的不安定性と長いコンテキスト処理性能低下問題に対する効果的な解決策を提示
ソフトプラス活性化関数と動的スケーリング因子,再重み付け機構によるアテンション機構の性能向上
長い文脈抽出作業と下流ベンチマークで優れた性能を達成
学習長に比べ16倍長のコンテキストでも安定した性能維持。
Limitations:
提案された方法の計算の複雑さの分析が不足する可能性がある。
さまざまな種類の長いコンテキストデータセットの実験結果がさらに必要になる場合があります。
提案された方法の一般化性能に関するさらなる研究が必要となるかもしれない。
👍