Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

EACGM : traçage des performances non instrumenté et détection des anomalies pour les systèmes d'apprentissage automatique

Created by
  • Haebom

Auteur

Ruilin Xu, Zongxuan Xie, Pengfei Chen

Contour

EACGM est un framework complet de surveillance de systèmes IA/ML basé sur eBPF. Il collecte les données de performance en temps réel des principales piles matérielles et logicielles telles que GPU, réseau, CUDA, Python et PyTorch, sans aucune modification de code. Il collecte également des informations sur l'utilisation des ressources GPU au niveau des processus grâce à libnvml, et applique le modèle de mélange gaussien (GMM) aux indicateurs de performance multidimensionnels collectés afin d'identifier efficacement les modes d'erreur complexes tels que les anomalies de latence, les pannes matérielles et les inefficacités de communication. Les résultats expérimentaux obtenus dans un scénario d'apprentissage distribué multi-nœuds démontrent qu'eACGM détecte efficacement les anomalies de performance importantes lors de l'apprentissage et de l'inférence du modèle avec une faible surcharge, ce qui confirme son applicabilité et son évolutivité en environnements réels.

Takeaways, Limitations

Takeaways:
Surveillance des performances en temps réel des systèmes d'IA/ML sans modification de code
Fournit une surveillance complète de divers éléments, notamment le GPU, le réseau et la pile logicielle.
Détection efficace des anomalies et diagnostic des goulots d'étranglement du système basé sur GMM
Applicable aux environnements d'exploitation réels avec une faible surcharge
Contribue à l'optimisation des performances et au diagnostic des pannes des systèmes d'IA/ML à grande échelle
Limitations:
Cet article ne mentionne pas spécifiquement Limitations. Des recherches supplémentaires pourraient être nécessaires, notamment sur la dépendance de l'eBPF ou les limites du modèle GMM.
👍