본 논문은 GPU 및 TPU와 같은 가속기를 갖춘 강력한 클러스터에서 심층 학습(DL) 모델을 훈련시키는 스케줄링의 효율성을 높이기 위해, 작업 단위의 이기종성을 고려하는 새로운 스케줄러인 Hadar를 제안한다. Hadar는 이기종 DL 클러스터에서 DL 작업의 성능 특성을 활용하여 최적화 문제에서 작업 단위의 성능 이기종성을 특징짓고, 공간 및 시간적 차원에서 스케줄링 결정을 내린다. 기존 최첨단 이기종 인식 스케줄러인 Gavel과 비교하여 추적 기반 시뮬레이션을 통해 평균 작업 완료 시간을 1.20배 단축시키는 것을 보여준다. 또한, 각 작업을 여러 복사본으로 분할하여 이기종 GPU에서 동시에 훈련시키는 HadarE를 제안하여 클러스터 자원 활용률을 1.45배 향상시키고, AWS 및 실험실 클러스터에서 총 시간을 50% 또는 80% 단축시키는 결과를 얻었다. HadarE는 Hadar보다 우수한 추론 품질을 가진 훈련된 DL 모델을 생성한다.