Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Accurate GPU Memory Prediction for Deep Learning Jobs through Dynamic Analysis

Created by
  • Haebom

저자

Jiabo Shi, Yehia Elkhatib

개요

VeritasEst는 GPU 클러스터에서 딥러닝 모델 학습 시 발생하는 Out-Of-Memory (OOM) 에러를 예방하기 위한 CPU 기반 메모리 예측 도구입니다. 기존의 정적 그래프 분석이나 GPU 기반 프로파일링 방식과 달리, VeritasEst는 GPU에 접근하지 않고도 학습에 필요한 최대 GPU 메모리를 정확하게 예측합니다. 이는 작업 스케줄링 전에 정확한 메모리 정보를 제공하여 OOM을 효과적으로 방지하고 GPU 할당을 최적화하는 데 기여합니다. 수천 번의 CNN 모델 실험 결과, 기존 방법 대비 상대 오차를 84%, 예측 실패 확률을 73% 감소시키는 성능을 보였습니다.

시사점, 한계점

시사점:
GPU 접근 없이 정확한 GPU 메모리 사용량 예측 가능
OOM 에러 예방 및 GPU 자원 활용 효율 증대
작업 스케줄링 전 메모리 예측을 통한 효율적인 GPU 할당 가능
자원 제약 환경에서의 딥러닝 학습 효율 향상
한계점:
현재는 CNN 모델에 대한 성능 검증이 주로 이루어짐. 다른 유형의 딥러닝 모델(RNN, Transformer 등)에 대한 일반화 가능성은 추가 연구 필요.
VeritasEst의 정확도는 모델의 복잡성 및 데이터셋 크기에 따라 영향을 받을 수 있음.
CPU 기반 분석이므로, 매우 복잡한 모델의 경우 계산 시간이 상대적으로 오래 걸릴 가능성 존재.
👍