Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Caractérisation de la résilience du GPU et de son impact sur les systèmes IA/HPC

Created by
  • Haebom

Auteur

Shengkun Cui, Archit Patke, Hung Nguyen, Aditya Ranjan, Ziheng Chen, Phuong Cao, Brett Bode, Gregory Bauer, Catello Di Martino, Saurabh Jha, Chandra Narayanaswami, Daby Sow, Zbigniew T. Kalbarczyk, Ravishankar K. Iyer

Contour

Cette étude caractérise la résilience GPU de Delta HPC, un système d'IA à grande échelle composé de 1 056 GPU A100 et H100, dont le débit maximal dépasse 1 300 pétaflops. À l'aide de 2,5 ans de données opérationnelles (11,7 millions d'heures GPU), nous analysons les pannes GPU et constatons que la mémoire du GPU H100 est 3,2 fois moins résiliente que celle du GPU A100, et que son mécanisme de récupération après panne mémoire est insuffisant pour gérer l'augmentation de la capacité mémoire. En revanche, le GPU H100 présente une résilience matérielle nettement supérieure à celle du GPU A100 pour les composants matériels clés. Pour les GPU A100 et H100, les pannes GPU entraînent souvent des échecs de tâches en raison de l'absence de mécanismes de récupération robustes au niveau des applications. De plus, nous estimons l'impact de la disponibilité des nœuds GPU à plus grande échelle et constatons qu'un surprovisionnement significatif de 5 % est nécessaire pour gérer les pannes GPU.

Takeaways, Limitations

Takeaways:
Nous avons confirmé que le taux d'occurrence d'erreurs de mémoire du GPU H100 est supérieur à celui du GPU A100 et avons suggéré la nécessité de rechercher la cause et la solution.
Souligne l’importance de développer des mécanismes de récupération robustes au niveau des applications pour éviter les échecs de tâches dus à des erreurs GPU dans les systèmes d’IA à grande échelle.
Fournit les informations nécessaires pour développer des stratégies de surprovisionnement GPU pour les opérations système à grande échelle.
Suggère la nécessité d’une analyse plus approfondie des différences entre la résilience matérielle améliorée et la résilience de la mémoire du GPU H100.
Limitations:
Les résultats spécifiques au système Delta HPC peuvent ne pas être généralisables à d’autres systèmes ou environnements.
Manque de solutions spécifiques pour remédier au manque de mécanismes de récupération au niveau des applications.
Des recherches supplémentaires sont nécessaires pour déterminer si un surprovisionnement de 5 % constitue la valeur optimale pour toutes les situations.
👍