每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

结构化稀疏转移矩阵实现状态空间模型中的状态跟踪

Created by
  • Haebom

作者

亚历山大·泰尔兹、尼古拉斯·梅内、迈克尔·赫歇、托马斯·霍夫曼、阿巴斯·拉希米

PD-SSM:富有表现力的稀疏状态空间模型

大纲

本文探讨了使用转移矩阵高效计算现代状态空间模型 (SSM) 会限制其表达能力的问题。我们提出了一种新颖的结构稀疏参数化技术,以平衡效率和表达能力。PD-SSM 将转移矩阵参数化为列独热矩阵 ($P$) 与复值对角矩阵 ($D$) 的乘积。该技术能够以最优状态大小和深度跟踪有限状态自动机 (FSA) 的状态,同时保持与对角 SSM 相当的计算成本。它在理论上表现出 BIBO 稳定性,并且可以用维度 $N$ 的单层和大小为 $N \times N$ 的线性读出来模拟任何 $N$ 状态 FSA,与传统的结构 SSM 相比,性能显著提升。实验表明,它在各种 FSA 状态跟踪任务上的表现显著优于最先进的 SSM 变体,并且在多类时间序列分类方面达到了与神经控制微分方程相当的性能。此外,我们证明,通过将 PD-SSM 集成到混合 Transformer-SSM 架构中,可以在使用可变长度英语句子编码的复杂 FSA 状态下有效地跟踪 PD-SSM。

Takeaways, Limitations

Takeaways:
在保持计算效率的同时提高SSM的表达能力。
它在FSA状态跟踪任务中表现出色。
它在多类时间序列分类中表现出了竞争力。
通过 Transformer-SSM 架构集成展示复杂 FSA 的状态可追溯性。
保证理论稳定性。
Limitations:
论文中没有明确提及具体的 Limitations(仅包括可以从摘要中推断的内容)。
👍