每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

基于注意力机制的双重压缩,实现 ViT 的高效通信分割学习

Created by
  • Haebom

作者

费德里科·阿尔维特雷蒂、贾里·庞波尼、保罗·迪·洛伦佐、西蒙娜·斯卡达帕内

大纲

本文提出了基于注意力机制的双重压缩 (ADC),这是一种新颖的通信高效的 SL 框架,可减少在分布式拆分学习 (SL) 中传播视觉转换器 (Vision Transformer) 中间激活所需的通信开销。ADC 集成了两种并行压缩策略。第一种策略根据在客户端最终层计算的平均注意力得分来合并相似样本的激活。该策略允许在不影响泛化能力或降低最终结果的情况下,对来自不同类别的样本进行类无关的合并。第二种策略沿袭第一种策略,并通过丢弃最不重要的标记来进一步降低通信成本。结合这两种策略,不仅可以减少前向传播过程中传输的数据量,还可以自然地压缩梯度,从而无需额外的调优或梯度近似即可进行完整的模型训练。仿真结果表明,基于注意力机制的双重压缩在保持高精度的同时,显著降低了通信开销,其性能优于最先进的 SL 框架。

Takeaways, Limitations

Takeaways:
提出了一种有效减少基于视觉转换器的分布式学习中的通信开销的新方法。
利用注意力机制实现同时数据压缩和梯度压缩。
通过与类别无关的样本合并策略,在不影响泛化性能的情况下提高效率。
无需额外调整或近似即可训练模型。
与最先进的 SL 框架相比,实现了高精度和低通信开销。
Limitations:
仅给出模拟结果,需要在真实环境中进行性能验证。
需要评估各种数据集和模型的泛化性能。
需要进一步研究确定基于注意力分数的样本合并策略的最优参数。
需要进一步研究来确定如何进一步提高令牌丢弃策略的有效性。
👍