Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Resource Heterogeneity-Aware and Utilization-Enhanced Scheduling for Deep Learning Clusters

Created by
  • Haebom
Category
Empty

저자

Abeda Sultana, Nabin Pakka, Fei Xu, Xu Yuan, Li Chen, Nian-Feng Tzeng

개요

본 논문은 GPU 및 TPU와 같은 가속기를 갖춘 강력한 클러스터에서 심층 학습(DL) 모델을 훈련시키는 스케줄링의 효율성을 높이기 위해, 작업 단위의 이기종성을 고려하는 새로운 스케줄러인 Hadar를 제안한다. Hadar는 이기종 DL 클러스터에서 DL 작업의 성능 특성을 활용하여 최적화 문제에서 작업 단위의 성능 이기종성을 특징짓고, 공간 및 시간적 차원에서 스케줄링 결정을 내린다. 기존 최첨단 이기종 인식 스케줄러인 Gavel과 비교하여 추적 기반 시뮬레이션을 통해 평균 작업 완료 시간을 1.20배 단축시키는 것을 보여준다. 또한, 각 작업을 여러 복사본으로 분할하여 이기종 GPU에서 동시에 훈련시키는 HadarE를 제안하여 클러스터 자원 활용률을 1.45배 향상시키고, AWS 및 실험실 클러스터에서 총 시간을 50% 또는 80% 단축시키는 결과를 얻었다. HadarE는 Hadar보다 우수한 추론 품질을 가진 훈련된 DL 모델을 생성한다.

시사점, 한계점

시사점:
작업 단위의 이기종성을 고려하는 스케줄링을 통해 심층 학습 모델 훈련 시간을 단축할 수 있음을 보여줌.
Hadar 및 HadarE는 기존 스케줄러보다 훨씬 향상된 성능을 제공함.
작업 복제를 통한 병렬 처리(HadarE)가 자원 활용률과 훈련 속도 향상에 효과적임을 증명.
HadarE는 향상된 추론 품질을 가진 모델을 생성함.
한계점:
제안된 스케줄러의 성능은 특정 작업 부하 및 클러스터 환경에 의존적일 수 있음.
실제 클러스터 환경에서의 평가가 제한적일 수 있음 (AWS와 실험실 클러스터만 평가).
HadarE의 작업 복제는 추가적인 자원 소모를 야기할 수 있음.
더 다양한 DL 모델과 클러스터 환경에서의 추가적인 실험이 필요함.
👍