본 논문은 현실 세계의 불확실성에도 효과적인 정책을 학습하는 강화 학습(RL)의 한계를 다룹니다. 특히, 오프라인 강화학습에서 제한된 데이터셋으로 인한 어려움을 해결하기 위해, 온라인 시뮬레이터를 활용하는 하이브리드 크로스 도메인 강화 학습 프레임워크 HYDRO를 제안합니다. HYDRO는 오프라인 데이터셋과 온라인 시뮬레이터 데이터를 결합하여, 시뮬레이터와 실제 환경 간의 불일치를 최소화하고, 불확실성 필터링 및 우선 순위 샘플링을 통해 효율적인 학습을 달성합니다. 다양한 실험을 통해 기존 방법보다 우수한 성능을 보임을 입증합니다.