EACGM est un framework complet de surveillance de systèmes IA/ML basé sur eBPF. Il collecte les données de performance en temps réel des principales piles matérielles et logicielles telles que GPU, réseau, CUDA, Python et PyTorch, sans aucune modification de code. Il collecte également des informations sur l'utilisation des ressources GPU au niveau des processus grâce à libnvml, et applique le modèle de mélange gaussien (GMM) aux indicateurs de performance multidimensionnels collectés afin d'identifier efficacement les modes d'erreur complexes tels que les anomalies de latence, les pannes matérielles et les inefficacités de communication. Les résultats expérimentaux obtenus dans un scénario d'apprentissage distribué multi-nœuds démontrent qu'eACGM détecte efficacement les anomalies de performance importantes lors de l'apprentissage et de l'inférence du modèle avec une faible surcharge, ce qui confirme son applicabilité et son évolutivité en environnements réels.