受生物大脑中突触修剪的启发,我们提出了一种基于大小的突触修剪方法,该方法可在训练过程中逐步移除低重要性连接。该方法可应用于各种时间序列预测模型,包括 RNN、LSTM 和 Patch Time Series Transformer,取代 Dropout,并直接集成到训练循环中。权重重要性基于绝对大小计算,并使用立方调度来逐步增加全局稀疏性。通过定期且持续地移除低重要性权重并维持活跃权重的梯度流,我们无需单独的修剪和微调步骤。
Takeaways,Limitations
•
Takeaways:
◦
提出了一种通过模仿生物突触修剪来提高效率的新型正则化技术。
◦
通过替换 Dropout 来提高各种时间序列预测模型的性能。
◦
财务预测中 MAE 降低高达 20%,某些 Transformer 模型中 MAE 降低高达 52%。