본 논문은 메타 강화학습 알고리즘을 DreamerV3 아키텍처와 통합하여 운영체제의 부하 분산을 개선하는 방법을 제시합니다. 이 접근 방식은 표준 및 적응형 시험에서 A2C 알고리즘을 능가하며, 최소한의 재훈련으로 동적 작업 부하에 대한 빠른 적응을 가능하게 합니다. 또한, 다양한 작업 부하 분포 및 크기 하에서 높은 성능을 유지하며, 치명적인 망각에 대한 강력한 복원력을 보여줍니다. 이러한 결과는 현대 운영 체제의 자원 관리 및 성능 최적화에 중요한 의미를 지닙니다. 동적이고 이종적인 작업 부하가 제기하는 과제를 해결함으로써, 본 논문의 접근 방식은 실제 시스템 관리 작업에서 강화 학습의 적응성과 효율성을 향상시킵니다.