每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

模型并行与子网数据并行

Created by
  • Haebom

作者

Vaibhav Singh、扎菲尔·哈立德、爱德华·奥亚隆、尤金·贝利洛夫斯基

子网数据并行(SDP)

大纲

大规模神经网络预训练对加速器内存需求过高,并且通常需要昂贵的通信成本。本文介绍了子网数据并行 (SDP),这是一种分布式学习框架,它将模型划分为跨工作器训练的结构化子网络,且无需交换激活值。我们研究了两种互补的掩码方法。后向掩码仅在后向传递中应用稀疏性以保持无偏梯度,而前向掩码则移除前向传递中的参数,从而提供更大的效率提升,同时提供额外的正则化。我们还探索了两种应用于 CNN 和 Transformer 的子网配置策略,一种在神经元级别,一种在块级别。在 CIFAR 和 ImageNet 上对 CNN 和 Transformer 进行的实验,以及在 FineWeb 上对 LLM 进行预训练的实验中,SDP 将每台设备的内存使用量降低了 30%-75%,同时保持或提升了性能。值得注意的是,在 FLOP 一致的设置下,前向掩码有时可以获得更佳的性能。

Takeaways, Limitations

Takeaways:
SDP 是训练大规模神经网络时减少内存使用的有效方法。
通过后向掩蔽和前向掩蔽可以实现各种效率和正则化效果。
它可以通过神经元级别和块级别的子网络配置策略应用于各种模型结构。
FLOP 匹配设置中的前向掩蔽可以提高性能。
Limitations:
本文提出的方法的具体性能改进和降低的详细分析可能有所欠缺。
需要进一步研究 SDP 对其他模型架构或数据集的普遍性。
实施和调整可能会有一些复杂性。
👍