Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

HPCTransCompile : un ensemble de données généré par un compilateur d'IA pour la transpilation CUDA haute performance et l'exploration préliminaire LLM

Created by
  • Haebom

Auteur

Jiaqi Lv, Xufeng He, Yanchen Liu, Xu Dai, Aocheng Shen, Yinghao Li, Jiachen Hao, Jianrong Ding, Yang Hu, Shouyi Yin

Contour

Cet article analyse l'état actuel des choses en matière de calcul GPU basé sur CUDA pour répondre à l'augmentation rapide des paramètres et des exigences de calcul des modèles d'apprentissage profond. La position dominante de l'écosystème CUDA a nécessité la prise en charge des logiciels CUDA sur d'autres plateformes matérielles, mais la traduction du code CUDA vers d'autres plateformes est une tâche complexe. Les approches existantes présentent des limites et nécessitent des coûts de développement élevés. Pour résoudre ces problèmes, cet article propose un nouveau framework qui génère du code CUDA haute performance et les paires de codes de plateforme correspondantes en exploitant des compilateurs d'IA et des techniques d'optimisation automatique. Nous ajoutons une méthode d'augmentation de données basée sur des graphes et introduisons le benchmark HPCTransEval pour évaluer les performances de la traduction CUDA. Nous menons des expériences sur la traduction CUDA vers CPU comme étude de cas, démontrant l'accélération des opérateurs CPU et soulignant le potentiel de LLM pour résoudre les problèmes de compatibilité de l'écosystème CUDA. Le code source est open source.

Takeaways, Limitations_

Takeaways:
Nous présentons un nouveau cadre permettant de traduire efficacement le code CUDA vers d’autres plateformes à l’aide de LLM.
ÉValuation des performances LLM et démonstration des améliorations potentielles grâce à l'augmentation des données basées sur des graphiques et au benchmark HPCTransEval.
Démontrer le potentiel de résolution des problèmes de compatibilité dans l'écosystème CUDA en améliorant la vitesse de l'opérateur CPU (43,8 % en moyenne).
Assurer la reproductibilité et l’extensibilité de la recherche grâce à la divulgation de sources ouvertes.
Limitations:
Actuellement, il s’agit d’une étude de cas axée sur la conversion CUDA vers CPU. Les performances de conversion vers d’autres plates-formes nécessitent donc des recherches supplémentaires.
Les performances de LLM peuvent encore être sous-optimales pour le code hautes performances.
Une validation supplémentaire de la polyvalence et de l’exhaustivité du benchmark HPCTransEval est nécessaire.
Des recherches supplémentaires sont nécessaires pour explorer l’évolutivité et la généralisabilité des approches basées sur le LLM.
👍