每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

MindVL:在 Ascend NPU 上高效且有效地训练多模态大型语言模型

Created by
  • Haebom

作者

陈飞龙、刘一江、黄一、王浩、田米仁、于亚奇、廖明辉、吴继豪

MindVL:基于昇腾NPU的多模态大规模语言模型

大纲

本文提出了MindVL,一种在昇腾NPU上训练的多模态大规模语言模型(MLLM)。MindVL解决了现有MLLM训练中硬件平台依赖性有限和数据配方封闭的问题。它通过名为MindSpeed-MLLM的高效训练框架,支持在昇腾硬件上稳定、高性能地训练大规模密集模型和混合专家模型(MoE)。此外,它还提供了训练数据生成方法和混合策略的系统化、开放性描述。MindVL是一种数据高效的MLLM,在昇腾NPU上进行端到端训练。它通过平均使用不同序列长度训练的检查点权重并采用测试时间分辨率搜索技术来提升性能。 MindVL-8B 以 10% 的数据实现了与 Qwen2.5VL-7B 相同的性能,而 MoE 模型 MindVL-671B-A37B 以 3% 的数据实现了与 Qwen2.5VL-72B 相似的性能。

Takeaways,Limitations

Takeaways:
将 Ascend 硬件作为 MLLM 训练的有效替代方案。
通过提供开放数据配方来促进研究的可重复性和开放性。
提出有效的性能增强技术,例如检查点加权平均和测试时间分辨率探索。
通过数据高效的模型训练,以更少的数据实现有竞争力的表现。
Limitations:
该论文可能缺乏有关具体数据集大小或模型架构的详细信息。
与其他尖端模型的全面比较和广泛的基准结果可能还不够。
由于这是专为 Ascend NPU 设计的训练框架,因此对其他硬件环境的通用性可能有限。
可能缺乏对模型的实际适用性和对各种现实问题的应用的分析。
👍