본 논문은 확률 미분 방정식(SDE)으로 지배되는 시스템에 대한 Actor-Critic(AC) 기반 강화 학습의 제어 성능을 향상시키기 위해 Y 연산자라는 새로운 연산자를 소개합니다. Y 연산자는 일련의 자식-어미 시스템의 확률성을 Critic 네트워크의 손실 함수에 통합하여 RL 알고리즘의 제어 성능을 크게 향상시킵니다. 또한, Y 연산자는 상태-가치 함수에 대한 편미분 방정식을 푸는 문제를 시스템의 SDE 내에서 드리프트 및 확산 함수에 대한 병렬 문제로 우아하게 재구성합니다. 엄격한 수학적 증명은 연산자의 유효성을 확인합니다. 이러한 변환을 통해 Y 연산자 기반 강화 학습(YORL) 프레임워크는 모델 기반 및 데이터 기반 시스템 모두에서 최적 제어 문제를 효율적으로 해결할 수 있습니다. YORL의 우수성은 수렴 후 기존 방법보다 향상된 성능을 보이는 선형 및 비선형 수치 예시를 통해 입증되었습니다.