Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
Cet article souligne que l'entraînement de grands modèles de langage (LLM) omnimodaux demeure un défi majeur en raison des architectures de modèles hétérogènes requises pour gérer diverses modalités, ce qui nécessite une conception système sophistiquée pour un entraînement à grande échelle. Les frameworks existants mêlent généralement définition de modèle et logique parallèle, limitant ainsi l'évolutivité et les coûts d'ingénierie de l'entraînement omnimodal de bout en bout. Dans cet article, nous présentons VeOmni, un framework d'entraînement modulaire et efficace pour accélérer le développement de LLM omnimodaux. VeOmni introduit des recettes distribuées centrées sur le modèle qui dissocient la communication du calcul, permettant un traitement parallèle 3D efficace dans les LLM omnimodaux. Il fournit également une interface de configuration flexible qui permet une intégration transparente de nouvelles modalités avec un minimum de modifications de code. Nous démontrons qu'avec VeOmni, un modèle omnimodal Mixture-of-Experts (MoE) avec 30 milliards de paramètres peut être entraîné à un débit de 2 800 jetons/seconde/GPU et évoluer jusqu'à 160 000 longueurs de contexte avec un parallélisme 3D sur 128 GPU. Cela démontre une excellente efficacité et une évolutivité pour une formation LLM omnimodale à grande échelle.
Takeaways, Limitations
•
Takeaways:
◦
Nous présentons VeOmni, un nouveau framework qui améliore considérablement l'efficacité et l'évolutivité de la formation LLM omnimodale en découplant la définition du modèle et la communication.
◦
Permettre une formation LLM omnimodale à grande échelle grâce au traitement parallèle 3D.
◦
Intégration facile de nouvelles modalités grâce à une interface de configuration flexible.
◦
Les résultats expérimentaux démontrent les performances et l’évolutivité supérieures de VeOmni.
•
Limitations:
◦
Des recherches supplémentaires sont nécessaires sur les applications pratiques de VeOmni et sa généralisabilité à diverses architectures LLM omnimodales.
◦
Peut-être optimisé pour un environnement matériel spécifique, nécessite une vérification de la portabilité vers d'autres environnements matériels.
◦
D’autres expériences et analyses sont nécessaires pour déterminer l’efficacité et la stabilité de la formation sur de très grands modèles.