본 논문은 다중 이동통신 사업자(MNO) 환경에서 차량의 안전 중요 애플리케이션을 위한 비용 효율적이고 안정적인 대역폭 예약 방법을 제시한다. 예측 불가능한 대역폭 가용성 및 엄격한 지연 시간 요구 사항으로 인한 가격 변동 및 공정성 문제를 해결하기 위해, 미리 대역폭을 요청하는 방식을 채택한다. 다수의 MNO 중 최적의 가격을 찾아 자원 비용을 최소화하는 것을 목표로, 마르코프 결정 과정(MDP)으로 다중 MNO 시나리오를 공식화하고, Dueling Deep Q-Learning 기반 심층 강화 학습(DRL) 알고리즘을 활용한다. 효율적이고 안정적인 학습을 위해 새로운 지역별 접근 방식과 실제 환경에 가까운 적응형 MDP 합성 데이터를 제안하며, 시간 종속 데이터 처리 및 모델 학습에는 Temporal Fusion Transformer(TFT)를 사용한다. 아마존 spot 가격 데이터를 활용하고, 합성 데이터를 이용한 초기 학습 후 실제 데이터를 이용한 학습을 진행하는 다단계 학습 방식을 채택한다. 실험 결과, 제안된 모델은 복잡한 환경에서 정책 모델 없이 진행하는 경우에 비해 최대 40%의 비용 절감 효과를 보였다.