Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

MindVL: Towards Efficient and Effective Training of Multimodal Large Language Models on Ascend NPUs

Created by
  • Haebom

作者

Feilong Chen, Yijiang Liu, Yi Huang, Hao Wang, Miren Tian, Ya-Qi Yu, Minghui Liao, Jihao Wu

概要

Ascend NPUで訓練されたマルチモーダルラージ言語モデル(MLLM)MindVLを提案します。 MindVLは、オープンな研究と再現性を妨げる閉鎖的なデータレシピとハードウェアプラットフォームへの依存を克服したいと考えています。 MindSpeed-MLLMと呼ばれる効率的なトレーニングフレームワークにより、Ascendハードウェアで大規模なDenseおよびMixture-of-Experts(MoE)モデルの安定した高性能トレーニングをサポートします。また、データ作成方法とミキシング戦略の体系的でオープンな説明を提供します。 MindVLは、Ascend NPUでエンドツーエンドでトレーニングされたデータ効率的なMLLMです。トレーニングされた複数のシーケンス長のチェックポイントで重みを平均する方法とテスト時間解像度検索を組み合わせることで、パフォーマンスを向上させました。 MindVL-8BはQwen2.5VL-7Bの10%データで同等の性能を達成し、MoEモデルであるMindVL-671B-A37BはQwen2.5VL-72Bの3%データで同等の性能を達成します。

Takeaways、Limitations

Takeaways:
AscendハードウェアがMLLMトレーニングに適していないという認識を変えます。
オープンデータレシピを提供することで再現性と研究アクセシビリティを向上
データ効率的なMLLMモデル開発(MindVL)
訓練されたシーケンス長重み付き平均および試験時間分解能検索による性能改善技術の提示
他の大手MLLMモデルと比較して競争力のあるパフォーマンスを達成。
Limitations:
論文では、具体的なデータ量やモデルアーキテクチャに関する情報が詳細に開示されていない可能性がある。 (要約本の限界)
結果の一般化の可能性は追加の検証を必要とするかもしれません。
他のハードウェアプラットフォームとの比較分析に関する情報が不足している可能性があります。
👍