본 논문은 속도가 다른 프로세서에서 혼합 중요도(Mixed-Criticality, MC) 시스템을 스케줄링하는 새로운 강화 학습(Reinforcement Learning, RL) 기반 접근법을 제시합니다. 기존 연구 [1]을 기반으로 NP-hard 문제인 비선점형 스케줄링 문제를 해결합니다. 마르코프 의사결정 과정(Markov Decision Process, MDP)으로 스케줄링 문제를 모델링하여, 실시간 MC 시스템에 대한 근사 최적 스케줄을 생성하는 RL 에이전트를 개발했습니다. 개발된 RL 기반 스케줄러는 전체 시스템 성능을 유지하면서 고 중요도 작업을 우선적으로 처리합니다. 광범위한 실험을 통해 접근법의 확장성과 효율성을 입증하였으며, 합성 데이터와 실제 데이터 100,000개 인스턴스에 대한 실험에서 전체 작업 완료율 80%, 고 중요도 작업 완료율 85%를 달성했습니다. 안정적인 조건에서는 전체 작업 완료율 94%, 고 중요도 작업 완료율 93%를 달성했습니다. 이러한 결과는 RL 기반 스케줄러가 복잡하고 동적인 스케줄링 시나리오를 처리하는 데 있어 실시간 및 안전 중요 애플리케이션에서 상당한 개선을 제공할 가능성을 보여줍니다.