본 논문은 일반적인 보편 근사 정리(UAT)가 아닌, 벨만 방정식의 해인 최적 Q 함수의 고유 구조적 특성을 활용하여 심층 Q 네트워크(DQN)의 근사 능력을 입증합니다. 특히, 벨만 업데이트의 반복적 개선 과정을 모방하도록 설계된 DQN 클래스에 대한 UAT를 확립합니다. 단일 벨만 연산자 적용에 의해 유도되는 변환의 규칙성(Backward Stochastic Differential Equations (BSDEs) 이론을 이용하여 분석)과 표준 Lipschitz 가정 하에 컴팩트 도메인에서 값 반복 반복의 전체 시퀀스의 균일한 규칙성(특히, 균일한 Lipschitz 연속성)을 유한 지평 동적 계획 원리로부터 도출합니다. 함수 공간에서 작용하는 신경 연산자로서 고안된 심층 잔차 네트워크의 레이어가 벨만 연산자의 작용을 근사할 수 있음을 보여줍니다. 따라서 결과 근사 정리는 제어 문제의 구조와 본질적으로 연결되어 있으며, 네트워크의 깊이가 값 함수 개선의 반복 횟수에 직접적으로 대응하고 제어된 오류 전파를 수반하는 증명 기법을 제공합니다. 이 관점은 값 함수 공간에서 네트워크의 작동에 대한 동적 시스템 관점을 보여줍니다.