연속 제어를 위한 결정적 정책 기울기 알고리즘은 성능을 저하시키는 가치 추정 편향 문제를 겪습니다. 이중 비평가는 이러한 편향을 줄이는 반면, 이중 액터의 탐험 가능성은 충분히 연구되지 않았습니다. TDDR(temporal-difference error-driven regularization)을 기반으로 하는 이 연구는 유연한 편향 제어와 더 강력한 표현 학습을 달성하기 위한 향상된 방법을 소개합니다. 낙관적 추정을 완화하기 위해 비관적 추정을 균형 있게 유지하는 대칭 및 비대칭의 세 가지 볼록 조합 전략과 과소 추정을 완화하기 위해 이중 액터를 통한 낙관적 탐험을 제안합니다. 단일 하이퍼파라미터가 이 메커니즘을 제어하여 편향 스펙트럼 전반에 걸쳐 조정 가능한 제어를 가능하게 합니다. 성능을 더욱 향상시키기 위해 액터 및 비평가 네트워크에 확장된 상태 및 액션 표현을 통합합니다. 광범위한 실험을 통해 제안된 접근 방식이 벤치마크를 일관되게 능가하며 조정 가능한 편향의 가치를 입증하고 환경에 따라 과대 추정과 과소 추정을 다르게 활용할 수 있음을 보여줍니다.