每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

任意精度和稀疏度的神经网络稳健训练

Created by
  • Haebom

作者

叶成希、朱格丽丝、刘艳峰、张一驰、卢卡斯·卢、张莉、马克·桑德勒、安德鲁·霍华德

大纲

本文提出了一种新方法来解决反向传播由于量化和稀疏性操作不连续而产生的难题,尤其是在超低精度和稀疏区域。传统的直通式估计器 (STE) 存在学习效果可能因前向传播(考虑量化)与反向传播(忽略量化)之间的不匹配而受到影响的问题。本文通过引入一种基于原则性岭回归目标函数的去噪反量化变换来解决这个问题。该变换生成显式修正梯度路径,通过识别并稳健地处理替代梯度忽略的量化误差,使 STE 在整个学习过程中保持稳健。此外,我们将这一原则扩展到稀疏性,将稀疏性视为一种特殊的量化形式,将不可忽略的值映射到零。这个统一的框架能够在各种精度和稀疏性范围内稳定地训练现有模型,并实现了完全二值化 (A1W1) 和稀疏亚 1 位网络的稳健训练,而其他方法则无法做到这一点。这提供了最先进的结果,并为理论上扎实、超高效的神经网络提供了一条道路。

Takeaways,Limitations

Takeaways:
提出了一种新方法来有效解决量化和稀疏化过程中出现的反向传播问题。
展示超低精度和稀疏网络的强大学习潜力。
在完全二进制(A1W1)和稀疏亚 1 位网络上实现最先进的性能。
为理论支持的超高效神经网络设计提供新的可能性。
Limitations:
缺乏对所提出方法的计算成本和内存使用情况的分析。
需要进一步的实验来评估不同网络结构和数据集的泛化性能。
需要进一步研究所提出的基于岭回归的逆量化变换的最佳参数设置。
👍