From Detection to Recovery: Operational Analysis on LLM Pre-training with 504 GPUs

Author

Haebom

저자

Daemyung Kang, Eunjin Hwang, Hanjeong Lee, HyeokJin Kim, Hyunhoi Koo, Jeongkyu Shin, Jeongseok Kang, Jihyun Kang, Joongi Kim, Junbum Lee, Jungseung Yang, Kyujin Cho, Youngsook Song

💡 개요

본 논문은 504개의 GPU를 갖춘 대규모 LLM 사전 학습 환경에서 발생하는 하드웨어 오류 및 시스템 병목 현상을 분석합니다. 55일간의 운영 데이터를 기반으로 GPU 오류 탐지, 스토리지 I/O 병목 현상, 체크포인트 저장 과정의 효율성을 측정하고, 실제 운영 환경에서의 성능 개선 방안을 제시합니다.

🔑 시사점 및 한계

•

GPU 오류 탐지: 단일 지표로는 모든 종류의 GPU 오류를 탐지하기 어려우므로, 다중 신호 기반의 탐지 전략이 필요합니다.

•

스토리지 I/O 병목: 대규모 분산 학습 환경에서는 GPU VRAM에서 NFS로의 체크포인트 저장 시 대역폭 활용도가 낮으며, 이는 NFS RPC 계층의 포화로 인해 발생합니다.

•

자동 복구 시스템의 효율성: 수동 복구보다 자동 복구 시스템이 더 높은 성공률을 보이며, 재시도 간격을 최적화하여 복구 시간을 단축할 수 있습니다.

•

한계점: 분석은 504개 GPU 환경에 국한되며, 다양한 규모의 클러스터 또는 다른 유형의 학습 작업에 대한 일반화는 추가 연구가 필요합니다.

PDF 보기

Made with Slashpage