Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Characterizing GPU Resilience and Impact on AI/HPC Systems

Created by
  • Haebom
Category
Empty

저자

Shengkun Cui, Archit Patke, Ziheng Chen, Aditya Ranjan, Hung Nguyen, Phuong Cao, Saurabh Jha, Brett Bode, Gregory Bauer, Chandra Narayanaswami, Daby Sow, Catello Di Martino, Zbigniew T. Kalbarczyk, Ravishankar K. Iyer

개요

본 연구는 600 페타플롭 이상의 최고 성능을 가진 대규모 AI 시스템인 Delta에서 GPU 오류를 특징짓는다. Delta 시스템은 NVIDIA A40, A100 및 H100 GPU와 같은 최신 AI 가속기를 갖춘 GPU 및 비 GPU 노드로 구성된다. 2년 반 동안의 GPU 오류 데이터를 사용하여 GPU 하드웨어 구성 요소의 복원력을 평가하고, 다른 GPU 구성 요소의 고장에 대한 취약성과 GPU 및 노드 가용성에 미치는 영향을 분석한다. GPU 하드웨어, GPU 상호 연결(NVLink) 및 GPU 메모리의 주요 전파 경로를 측정하고, 관찰된 GPU 오류가 사용자 작업에 미치는 영향을 평가한다. 주요 결과는 다음과 같다: (i) 일반적인 믿음과 달리 GPU 메모리는 MTBE(평균 오류 간 시간) 측면에서 GPU 하드웨어보다 30배 이상 안정적이다. (ii) 새롭게 도입된 GSP(GPU 시스템 프로세서)가 가장 취약한 GPU 하드웨어 구성 요소이다. (iii) NVLink 오류가 항상 사용자 작업 실패로 이어지지는 않았으며, 이는 기본적인 오류 감지 및 재시도 메커니즘 때문이다. (iv) 주요 GPU 하드웨어 구성 요소 중 하나에서 발생하는 하드웨어 오류의 여러 사례를 보여주며, 이는 애플리케이션 실패로 이어진다. (v) 에뮬레이션을 통해 더 큰 규모에서 GPU 노드 가용성의 영향을 예측하고, GPU 오류를 처리하기 위해 5~20%의 상당한 과잉 프로비저닝이 필요함을 발견했다. GPU 가용성이 99.9%로 향상되면 과잉 프로비저닝은 4배 감소한다.

시사점, 한계점

시사점:
GPU 메모리가 하드웨어보다 훨씬 안정적이라는 사실을 밝힘으로써 GPU 시스템 설계 및 안정성 향상에 대한 새로운 통찰력을 제공한다.
GSP의 취약성을 밝혀냄으로써 향후 GPU 설계 및 개발에 중요한 정보를 제공한다.
NVLink 오류가 사용자 작업에 미치는 영향을 완화하는 오류 감지 및 재시도 메커니즘의 중요성을 강조한다.
GPU 오류로 인한 애플리케이션 실패의 원인을 분석하여 시스템 안정성 개선에 기여한다.
대규모 시스템에서 GPU 오류를 효과적으로 처리하기 위한 과잉 프로비저닝 전략의 필요성을 제시한다.
한계점:
본 연구는 특정 대규모 AI 시스템인 Delta에 대한 결과이며, 다른 시스템이나 GPU 아키텍처에 일반화하기 어려울 수 있다.
2년 반의 데이터를 사용했지만, 더 장기적인 관찰이 필요할 수 있다.
에뮬레이션을 통해 예측한 과잉 프로비저닝 비율은 실제 환경과 다를 수 있다.
GPU 오류의 근본 원인에 대한 자세한 분석이 부족할 수 있다.
👍