본 논문은 Huang et al. (2024)의 연구에서 다룬 연속 시간 확률적 선형-2차(LQ) 제어 문제와 같은 종류의 문제에 대한 강화 학습(RL)을 연구합니다. 상태는 스칼라 값이고 실행 제어 보상이 없는 상태에서 변동성이 상태와 제어 모두에 의존하는 문제입니다. 논문에서는 비모델 기반의 데이터 기반 탐색 메커니즘을 제안하는데, 이 메커니즘은 비평가에 의한 엔트로피 규제와 행위자에 의한 정책 분산을 적응적으로 조정합니다. 기존 연구(Huang et al., 2024)에서 사용된 일정하거나 결정적인 탐색 일정과 달리, 제안된 적응적 탐색 접근 방식은 최소한의 조정으로 학습 효율을 높입니다. 유연성에도 불구하고, 본 방법은 이러한 종류의 LQ 문제에 대한 최고의 비모델 기반 결과와 일치하는 준선형 후회 경계를 달성합니다. 이전에는 고정된 탐색 일정을 통해서만 도출되었습니다. 수치 실험은 적응적 탐색이 비적응적 비모델 기반 및 모델 기반 방법과 비교하여 수렴을 가속화하고 후회 성능을 향상시킨다는 것을 보여줍니다.