自适应滤波注意力机制 (AFA) 是一种新颖的注意力机制,它将可学习的动态模型直接集成到注意力权重的计算中。它不是直接比较查询和键,而是将输入序列建模为线性随机微分方程 (SDE) 的离散观测值。通过同时施加具有可对角化状态矩阵和噪声协方差的线性动态模型,它使用微分李雅普诺夫方程的闭式解有效地传播成对不确定性。注意力机制自然而然地成为该线性 SDE 的最大似然解,注意力权重对应于基于残差的稳健的成对精度重加权。对状态矩阵的特征值施加额外约束,可以得到一个简化的变体,其计算和内存复杂度与标准注意力机制相同。在动态和过程噪声消失的极限下,通过小角度近似,它可以恢复典型的内积注意力机制。