Adaptive Filter Attention (AFA) を紹介します。 AFAは、学習可能なダイナミクスモデルをアテンション重み計算に直接統合する新しいアテンションメカニズムです。クエリとキーを直接比較する代わりに、入力シーケンスを線形確率微分方程式(SDE)の離散観測値としてモデル化します。同時に,対角化可能な状態行列と雑音共分散を伴う連続時間線形時不変系を仮定して,微分Lyapunov方程式の閉じた解を用いて,鍵からクエリへのダイナミクスを通して,不確実性を効率的に伝搬する。この線形SDEの軌跡をフィルタリングするための最大尤度解として、アテンションが自然に現れ、アテンションの重みは伝播されたクエリキー精度の堅牢な残差ベースの再重みに対応します。さらに、システムのダイナミクスとノイズを制約し、標準アテンションと同じ計算とメモリの複雑さを持つ単純化されたバリエーションを実現します。減衰とプロセスノイズがゼロで小さい角度近似を使用する場合は、回転位置エンコーディングを使用して一般的なスコアアテンションの複素数値一般化を回復します。