[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

La portabilité des performances du GPU nécessite un réglage automatique

Created by
  • Haebom

Auteur

Burkhard Ringlein, Thomas Parnell, Radu Stoica

Contour

Dans cet article, nous présentons une nouvelle approche visant à améliorer les performances et à garantir la portabilité de l'inférence de modèles de langage à grande échelle (LLM). Pour remédier aux problèmes de portabilité liés à la dépendance traditionnelle à une plateforme unique, au verrouillage fournisseur et aux barrières à l'entrée de nouveaux matériels d'IA, nous proposons une méthode combinant la compilation juste-à-temps (JIT) avec un réglage automatique complet des paramètres du noyau. En nous concentrant sur les noyaux LLM critiques pour les performances, nous montrons que notre méthode explore jusqu'à 15 fois plus de configurations de paramètres du noyau, génère un code nettement plus diversifié sur plusieurs dimensions et améliore les performances jusqu'à 230 % par rapport aux implémentations optimisées par les fournisseurs, tout en réduisant la taille du code du noyau de 70 fois et en éliminant l'optimisation manuelle du code. Nos résultats soulignent que le réglage automatique est une approche prometteuse pour améliorer la portabilité des modèles entre les fournisseurs de GPU.

Takeaways, Limitations

Takeaways:
Suggérant la possibilité d'améliorer la portabilité et les performances de l'inférence LLM grâce à la compilation JIT et au réglage automatique.
Démontre le potentiel d’atteindre des performances qui dépassent les implémentations optimisées par les fournisseurs.
Efficacité de développement accrue en réduisant la taille du code du noyau et en éliminant les optimisations manuelles.
Une nouvelle direction pour garantir la portabilité des modèles entre les fournisseurs de GPU.
Limitations:
D’autres études sont nécessaires pour étudier la généralisabilité de la méthode présentée et son applicabilité à différentes architectures et tailles de LLM.
Une analyse du coût de calcul et du temps requis pour le processus d’ajustement automatique est nécessaire.
Une évaluation plus approfondie des performances et de la stabilité dans des environnements d’application réels est nécessaire.
Axé sur l'optimisation d'un noyau LLM spécifique, manque de considération pour les améliorations de performances dans d'autres domaines.
👍