eACGM은 eBPF 기반의 완전한 AI/ML 시스템 모니터링 프레임워크입니다. 코드 수정 없이 GPU, 네트워크, CUDA, Python, PyTorch 등 주요 하드웨어 및 소프트웨어 스택의 실시간 성능 데이터를 수집합니다. libnvml을 활용하여 프로세스 단위 GPU 자원 사용 정보도 수집하며, 수집된 다차원 성능 지표에 Gaussian Mixture Model (GMM)을 적용하여 지연 시간 이상, 하드웨어 고장, 통신 비효율성 등 복잡한 오류 모드를 효과적으로 식별합니다. 다중 노드 분산 학습 시나리오에서의 실험 결과, eACGM은 낮은 오버헤드로 모델 학습 및 추론 중 중요한 성능 이상 현상을 성공적으로 포착하며, 실제 환경에서의 적용 가능성과 확장성을 검증했습니다.