Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

VeOmni: Scaling Any Modality Model Training with Model-Centric Distributed Recipe Zoo

Created by
  • Haebom

作者

Qianli Ma, Yaowei Zheng, Zhelun Shi, Zhongkai Zhao, Bin Jia, Ziyue Huang, Zhiqi Lin, Youjie Li, Jiacheng Yang, Yanghua Peng, Zhi Zhang, Xin Liu

概要

この論文は、さまざまなモダリティを処理するために必要な異種モデルアーキテクチャのため、大規模なトレーニングのための洗練されたシステム設計を必要とし、オムニモーダルLLM(大規模言語モデル)のトレーニングが依然としてかなりの課題であることを指摘しています。従来のフレームワークは通常、モデル定義と並列ロジックを絡め、スケーラビリティが制限され、エンドツーエンドのオムニモーダルトレーニングにかなりのエンジニアリングオーバーヘッドが発生します。この論文では、オムニモーダルLLMの開発を加速するためのモジュール式で効率的なトレーニングフレームワークであるVeOmniを紹介します。 VeOmniは、計算から通信を分離するモデル中心の分散レシピを導入し、オムニモーダルLLMで効率的な3D並列処理を可能にします。また、最小限のコード変更で新しいモダリティのシームレスな統合をサポートする柔軟な設定インターフェイスを備えています。 VeOmniを使用すると、30Bパラメータを持つオムニモーダルエキスパートブレンド(MoE)モデルを2,800トークン/秒/ GPUスループットでトレーニングし、128個のGPUで3D並列処理を介して160Kコンテキスト長に拡張できます。これは、大規模なオムニモーダルLLMトレーニングの優れた効率

Takeaways、Limitations

Takeaways:
オムニモーダルLLMトレーニングの効率性とスケーラビリティを大幅に向上させるVeOmniフレームワークの提示。
モデル定義と通信を分離し、3D並列処理による効率的な大規模トレーニングが可能
新しいモダリティ統合のための柔軟な構成インターフェースを提供します。
30BパラメータのオムニモーダルMoEモデルを128個のGPUで効率的に訓練可能であることを実験的に証明。
Limitations:
VeOmniフレームワークの実際の適用性と一般化性能に関する追加の研究が必要です。
さまざまな規模のオムニモーダルLLMおよびさまざまなハードウェア環境でのパフォーマンス評価がさらに必要です。
特定のハードウェア環境(128 GPU)への依存が存在する可能性。異なる環境での一般化パフォーマンス検証が必要です。
👍