Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Characterizing GPU Resilience and Impact on AI/HPC Systems

Created by
  • Haebom
Category
Empty

저자

Shengkun Cui, Archit Patke, Ziheng Chen, Aditya Ranjan, Hung Nguyen, Phuong Cao, Saurabh Jha, Brett Bode, Gregory Bauer, Chandra Narayanaswami, Daby Sow, Catello Di Martino, Zbigniew T. Kalbarczyk, Ravishankar K. Iyer

개요

본 연구는 600 페타플롭 이상의 최고 컴퓨팅 처리량을 가진 대규모 AI 시스템인 Delta에서 GPU 오류를 특징짓는다. Delta 시스템은 NVIDIA A40, A100 및 H100 GPU와 같은 최신 AI 가속기를 갖춘 GPU 및 비 GPU 노드로 구성된다. 2년 반 동안의 GPU 오류 데이터를 사용하여 GPU 하드웨어 구성 요소의 복원력을 평가하고, 서로 다른 GPU 구성 요소의 고장 취약성과 GPU 및 노드 가용성에 미치는 영향을 분석한다. GPU 하드웨어, GPU 상호 연결(NVLink) 및 GPU 메모리의 주요 전파 경로를 측정하고, 관찰된 GPU 오류가 사용자 작업에 미치는 영향을 평가한다. 주요 결과는 다음과 같다: (i) 일반적인 믿음과 달리 GPU 메모리는 MTBE(평균 오류 간 간격) 측면에서 GPU 하드웨어보다 30배 이상 안정적이다. (ii) 새롭게 도입된 GSP(GPU 시스템 프로세서)가 가장 취약한 GPU 하드웨어 구성 요소이다. (iii) NVLink 오류가 항상 사용자 작업 실패로 이어지지는 않았으며, 이는 기본적인 오류 감지 및 재시도 메커니즘 때문이다. (iv) 주요 GPU 하드웨어 구성 요소 중 하나에서 발생하는 하드웨어 오류의 여러 사례가 응용 프로그램 실패로 이어짐을 보여준다. (v) 에뮬레이션을 통해 더 큰 규모에서 GPU 노드 가용성의 영향을 예측하고, GPU 오류를 처리하기 위해 5~20%의 상당한 과잉 프로비저닝이 필요함을 발견했다. GPU 가용성이 99.9%로 향상되면 과잉 프로비저닝은 4배 감소한다.

시사점, 한계점

시사점:
GPU 메모리가 GPU 하드웨어보다 훨씬 안정적이라는 사실을 밝힘으로써 향후 시스템 설계 및 오류 관리 전략에 대한 시사점을 제공한다.
GSP의 취약성을 밝혀냄으로써 향후 GPU 설계 및 개발에 대한 중요한 정보를 제공한다.
NVLink 오류가 항상 사용자 작업 실패로 이어지지 않는다는 사실은 시스템의 오류 복구 메커니즘의 효과를 보여준다.
하드웨어 오류의 전파 경로와 그에 따른 응용 프로그램 실패의 원인을 분석하여 시스템 안정성 향상을 위한 방향을 제시한다.
GPU 오류에 대한 과잉 프로비저닝의 필요성과 GPU 가용성 향상의 효과를 정량적으로 제시한다.
한계점:
Delta 시스템에 특화된 연구 결과이므로 다른 시스템으로 일반화하는 데에는 한계가 있다.
2년 반의 데이터를 사용했지만, 더 장기간의 데이터 분석이 필요할 수 있다.
특정 GPU 모델(A40, A100, H100)에 대한 분석 결과이므로 다른 GPU 모델에 대한 일반화는 제한적이다.
에뮬레이션을 기반으로 한 대규모 시스템의 예측 결과는 실제 환경과 차이가 있을 수 있다.
👍