Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
Cet article souligne que l'apprentissage de LLM omnimodaux (modèles de langage à grande échelle) demeure un défi majeur en raison des architectures de modèles hétérogènes requises pour gérer diverses modalités, ce qui nécessite des conceptions système sophistiquées pour un apprentissage à grande échelle. Les frameworks existants mêlent généralement définition de modèle et logique parallèle, ce qui limite l'évolutivité et engendre des coûts d'ingénierie importants pour l'apprentissage omnimodal de bout en bout. En réponse, nous présentons VeOmni, un framework d'apprentissage modulaire et efficace pour accélérer le développement de LLM omnimodaux. VeOmni introduit des recettes distribuées centrées sur le modèle qui dissocient la communication du calcul, permettant un traitement parallèle 3D efficace dans les LLM omnimodaux. Il dispose également d'une interface de configuration flexible qui permet une intégration transparente de nouvelles modalités avec un minimum de modifications de code. En utilisant VeOmni, nous formons un modèle de mélange omnimodal d'experts (MoE) avec 30 B de paramètres à un débit de 2 800 jetons/seconde/GPU et une longueur de contexte de 160 K avec un parallélisme 3D sur 128 GPU, démontrant une excellente efficacité et évolutivité pour la formation LLM omnimodale à grande échelle.
Takeaways, Limitations
•
Takeaways:
◦
Nous présentons le framework VeOmni, qui améliore considérablement l'efficacité et l'évolutivité de la formation LLM omnimodale.
◦
Le découplage de la définition du modèle et de la communication permet une formation efficace à grande échelle grâce au traitement parallèle 3D.
◦
Fournit une interface de configuration flexible pour l'intégration de nouvelles modalités.
◦
Nous démontrons expérimentalement qu'un modèle MoE omnimodal avec 30B paramètres peut être formé efficacement sur 128 GPU.
•
Limitations:
◦
Des recherches supplémentaires sont nécessaires pour déterminer l’applicabilité pratique et les performances de généralisation du cadre VeOmni.
◦
D’autres évaluations de performance sont nécessaires pour les LLM omnimodaux de différentes échelles et dans différents environnements matériels.
◦
Il peut y avoir une dépendance à un environnement matériel spécifique (128 GPU). Les performances de généralisation dans d'autres environnements doivent être vérifiées.