本文提出了MindVL,一种在昇腾NPU上训练的多模态大规模语言模型(MLLM)。MindVL解决了现有MLLM训练中硬件平台依赖性有限和数据配方封闭的问题。它通过名为MindSpeed-MLLM的高效训练框架,支持在昇腾硬件上稳定、高性能地训练大规模密集模型和混合专家模型(MoE)。此外,它还提供了训练数据生成方法和混合策略的系统化、开放性描述。MindVL是一种数据高效的MLLM,在昇腾NPU上进行端到端训练。它通过平均使用不同序列长度训练的检查点权重并采用测试时间分辨率搜索技术来提升性能。 MindVL-8B 以 10% 的数据实现了与 Qwen2.5VL-7B 相同的性能,而 MoE 模型 MindVL-671B-A37B 以 3% 的数据实现了与 Qwen2.5VL-72B 相似的性能。