본 논문은 고성능 컴퓨팅(HPC) 환경에서의 자원 할당 문제를 해결하기 위해 분산 분산 근사 정책 최적화(DD-PPO) 알고리즘을 활용한 새로운 강화 학습 기반 스케줄러를 제안합니다. 기존의 규칙 기반 스케줄링 알고리즘은 시스템의 이기종성 및 규모 증가에 따라 효율성과 유연성이 저하되는 한계를 보입니다. 본 연구에서는 대규모 분산 학습을 지원하고 매 단계마다 매개변수 동기화를 필요로 하지 않는 DD-PPO 알고리즘을 통해 이러한 문제를 해결하고자 합니다. 1150만 개 이상의 실제 HPC 작업 추적 데이터를 사용한 실험 결과, DD-PPO 기반 스케줄러는 기존의 규칙 기반 스케줄러 및 기존 강화 학습 기반 스케줄링 알고리즘보다 향상된 성능을 보임을 확인했습니다.