본 논문은 확률적 제어와 순방향-역방향 확률 미분 방정식(FBSDEs)을 이용하여 심층 Q 네트워크(DQN)를 연속 시간 프레임워크에서 분석하는 방법을 제시합니다. 제곱적분 마팅게일로 구동되는 연속 시간 마르코프 의사결정 과정(MDP)을 고려하여 DQN의 근사 특성을 분석합니다. 잔차 네트워크 근사 정리와 상태-행동 과정에 대한 대편차 경계를 활용하여 DQN이 컴팩트 집합에서 최적 Q 함수를 임의의 정확도와 높은 확률로 근사할 수 있음을 보입니다. 그리고 이 설정에서 DQN을 훈련하기 위한 일반적인 Q-학습 알고리즘의 수렴성을 확률적 근사 정리를 적용하여 분석합니다. 이 분석은 DQN 계층 수, 시간 이산화, 그리고 최적 Q 함수의 비매끄러움 문제 해결에 있어 점성 해(주로 값 함수 $V^*$에 대해)의 역할 간의 상호 작용을 강조합니다. 본 연구는 심층 강화 학습과 확률적 제어를 연결하여 물리 시스템이나 고주파 데이터를 다루는 응용 분야에 관련성이 있는 연속 시간 설정에서 DQN에 대한 통찰력을 제공합니다.