본 논문은 GPU 및 TPU와 같은 가속기를 갖춘 강력한 클러스터에서 심층 학습(DL) 모델 학습을 위한 스케줄링 문제를 해결하기 위해 새로운 작업 단위 이종성 인식 스케줄러인 Hadar를 제안합니다. Hadar는 자원 활용도를 높이는 최적화 프레임워크를 기반으로 하며, 이종 DL 클러스터에서 DL 작업의 성능 특성을 활용하여 최적화 문제에서 작업 단위 성능 이종성을 특징짓고 공간 및 시간 차원에서 스케줄링 결정을 내립니다. 최적화 문제를 해결하고 스케줄링 설계를 안내하기 위해 이중 부 프로그램을 사용하는 주-이중 프레임워크를 포함합니다. 추적 기반 시뮬레이션 결과, Hadar는 기존 최고 성능의 이종성 인식 스케줄러인 Gavel에 비해 총 시간을 1.20배 단축했습니다. 또한, 자원 활용도 향상을 위해 각 작업을 여러 복사본으로 분할하여 서로 다른 노드의 이종 GPU에서 동시에 훈련하도록 하는 HadarE를 제시합니다. HadarE는 물리적 DL 클러스터에서 Hadar 및 Gavel과 비교 평가되었으며, 클러스터 자원 활용도를 1.45배 향상시켜 AWS 클러스터에서는 50%, 실험실 클러스터에서는 80%의 총 시간 단축 효과를 보였고, Hadar보다 일관되게 더 나은 추론 품질의 훈련된 DL 모델을 생성했습니다.