본 논문은 강화 학습 알고리즘이 주로 이산 시간 역학에 맞춰 설계되었지만, 실제 제어 시스템은 연속적인 시간에서 작동한다는 점에 주목하여, 연속 시간 강화 학습 문제를 연구합니다. 논문에서는 비선형 상미분 방정식(ODE)을 사용하여 알려지지 않은 시스템 역학을 나타내며, Gaussian process와 Bayesian neural network와 같은 확률적 모델을 활용하여 기본 ODE에 대한 불확실성을 고려한 모델을 학습합니다. 제안된 알고리즘 COMBRL은 외부 보상과 모델의 인식적 불확실성의 가중 합을 탐욕적으로 최대화합니다. 이는 연속 시간 모델 기반 강화 학습에 대한 확장 가능하고 샘플 효율적인 접근 방식을 제공합니다. COMBRL은 보상 기반 설정에서 sublinear regret을 달성하며, 비지도 강화 학습 설정(외부 보상 없음)에서 샘플 복잡성 경계를 제공합니다. 실험을 통해 COMBRL이 기존 방법보다 더 잘 확장되고 샘플 효율적이며, 여러 딥러닝 과제에서 기준선을 능가함을 입증합니다.