Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

eACGM: Non-instrumented Performance Tracing and Anomaly Detection towards Machine Learning Systems

Created by
  • Haebom

저자

Ruilin Xu, Zongxuan Xie, Pengfei Chen

개요

eACGM은 eBPF 기반의 완전한 AI/ML 시스템 모니터링 프레임워크입니다. 코드 수정 없이 GPU, 네트워크, CUDA, Python, PyTorch 등 주요 하드웨어 및 소프트웨어 스택의 실시간 성능 데이터를 수집합니다. libnvml을 활용하여 프로세스 단위 GPU 자원 사용 정보도 수집하며, 수집된 다차원 성능 지표에 Gaussian Mixture Model (GMM)을 적용하여 지연 시간 이상, 하드웨어 고장, 통신 비효율성 등 복잡한 오류 모드를 효과적으로 식별합니다. 다중 노드 분산 학습 시나리오에서의 실험 결과, eACGM은 낮은 오버헤드로 모델 학습 및 추론 중 중요한 성능 이상 현상을 성공적으로 포착하며, 실제 환경에서의 적용 가능성과 확장성을 검증했습니다.

시사점, 한계점

시사점:
코드 수정 없이 AI/ML 시스템의 실시간 성능 모니터링 가능
GPU, 네트워크, 소프트웨어 스택 등 다양한 요소에 대한 포괄적인 모니터링 제공
GMM 기반의 효과적인 이상 탐지 및 시스템 병목 현상 진단
낮은 오버헤드로 실제 운영 환경에 적용 가능
대규모 AI/ML 시스템의 성능 최적화 및 장애 진단에 기여
한계점:
본 논문에서는 구체적인 한계점이 언급되지 않음. eBPF의 의존성이나 GMM 모델의 한계 등 추가적인 연구가 필요할 수 있음.
👍