Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Attention as an Adaptive Filter

Created by
  • Haebom

作者

Peter Racioppo

概要

Adaptive Filter Attention (AFA) を紹介します。 AFAは、学習可能なダイナミクスモデルをアテンション重み計算に直接統合する新しいアテンションメカニズムです。クエリとキーを直接比較する代わりに、入力シーケンスを線形確率微分方程式(SDE)の離散観測値としてモデル化します。同時に,対角化可能な状態行列と雑音共分散を伴う連続時間線形時不変系を仮定して,微分Lyapunov方程式の閉じた解を用いて,鍵からクエリへのダイナミクスを通して,不確実性を効率的に伝搬する。この線形SDEの軌跡をフィルタリングするための最大尤度解として、アテンションが自然に現れ、アテンションの重みは伝播されたクエリキー精度の堅牢な残差ベースの再重みに対応します。さらに、システムのダイナミクスとノイズを制約し、標準アテンションと同じ計算とメモリの複雑さを持つ単純化されたバリエーションを実現します。減衰とプロセスノイズがゼロで小さい角度近似を使用する場合は、回転位置エンコーディングを使用して一般的なスコアアテンションの複素数値一般化を回復します。

Takeaways、Limitations

学習可能なダイナミクスモデルをアテンション計算に統合することでアテンション機構の新しいアプローチを提示
線形SDEモデリングによるクエリキー間の不確実性を効率的に伝播
標準アテンションと同じ計算とメモリの複雑さを持つ簡素化されたAFAバリエーション
回転位置エンコーディングを用いたスライスアテンションの複素数値一般化を回復
論文で具体的な実験結果や実際の性能比較に関する情報が不足している
線形SDEモデルの制約と仮定が性能に及ぼす影響の分析が必要
AFAの最適超パラメータ設定の研究が必要
👍