본 논문은 상태가 스칼라 값이고 실행 제어 보상이 없지만 상태 프로세스의 변동성이 상태 및 제어 변수 모두에 따라 달라지는 연속 시간 선형-2차(LQ) 제어 문제의 클래스에 대한 강화 학습(RL)을 연구합니다. 모델 매개변수 지식이나 추정에 의존하지 않는 모델 없는 접근 방식을 적용하여 최적 정책 매개변수를 직접 학습하는 RL 알고리즘을 고안합니다. 주요 기여는 탐색 일정의 도입과 제안된 알고리즘의 후회 분석입니다. 정책 매개변수의 최적값으로의 수렴 속도를 제공하고, 알고리즘이 로그 인수까지 $O(N^{\frac{3}{4}})$의 후회 경계를 달성함을 증명합니다. 시뮬레이션 연구를 통해 이론적 결과를 검증하고 제안된 알고리즘의 효과와 신뢰성을 보여줍니다. 또한, 상태 및 제어 의존 변동성 설정에 적용된 최근 모델 기반 확률적 LQ RL 연구와의 수치적 비교를 수행하여 후회 경계 측면에서 전자의 성능이 더 우수함을 보여줍니다.