Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Resource Heterogeneity-Aware and Utilization-Enhanced Scheduling for Deep Learning Clusters

Created by
  • Haebom

저자

Abeda Sultana, Nabin Pakka, Fei Xu, Xu Yuan, Li Chen, Nian-Feng Tzeng

개요

본 논문은 GPU 및 TPU와 같은 가속기를 갖춘 강력한 클러스터에서 심층 학습(DL) 모델 학습을 위한 스케줄링 문제를 해결하기 위해 새로운 작업 단위 이종성 인식 스케줄러인 Hadar를 제안합니다. Hadar는 자원 활용도를 높이는 최적화 프레임워크를 기반으로 하며, 이종 DL 클러스터에서 DL 작업의 성능 특성을 활용하여 최적화 문제에서 작업 단위 성능 이종성을 특징짓고 공간 및 시간 차원에서 스케줄링 결정을 내립니다. 최적화 문제를 해결하고 스케줄링 설계를 안내하기 위해 이중 부 프로그램을 사용하는 주-이중 프레임워크를 포함합니다. 추적 기반 시뮬레이션 결과, Hadar는 기존 최고 성능의 이종성 인식 스케줄러인 Gavel에 비해 총 시간을 1.20배 단축했습니다. 또한, 자원 활용도 향상을 위해 각 작업을 여러 복사본으로 분할하여 서로 다른 노드의 이종 GPU에서 동시에 훈련하도록 하는 HadarE를 제시합니다. HadarE는 물리적 DL 클러스터에서 Hadar 및 Gavel과 비교 평가되었으며, 클러스터 자원 활용도를 1.45배 향상시켜 AWS 클러스터에서는 50%, 실험실 클러스터에서는 80%의 총 시간 단축 효과를 보였고, Hadar보다 일관되게 더 나은 추론 품질의 훈련된 DL 모델을 생성했습니다.

시사점, 한계점

시사점:
작업 단위 이종성을 고려한 효율적인 심층 학습 모델 학습 스케줄링 기법 제시
기존 스케줄러(Gavel) 대비 성능 향상 (총 시간 단축 1.20x ~ 2x) 및 자원 활용도 증대 (1.45x)
HadarE를 통해 더욱 향상된 성능 및 추론 품질 달성
실제 클러스터 환경에서의 성능 검증
한계점:
제안된 스케줄러의 성능은 사용되는 DL 모델과 클러스터 환경에 따라 달라질 수 있음.
HadarE의 작업 분할 전략은 모든 작업에 적용 가능하지 않을 수 있음.
대규모 클러스터 환경에서의 확장성에 대한 추가적인 연구 필요.
다양한 작업 부하 및 클러스터 토폴로지에 대한 일반화 가능성에 대한 추가적인 연구 필요.
👍