본 논문은 연속적인 행동 공간을 갖는 강화학습 문제에 대해, 최소제곱법(LR)을 심층 결정적 정책 경사(DDPG) 알고리즘과 결합한 새로운 방법인 이중 최소제곱 심층 결정적 정책 경사(DLS-DDPG)를 제안합니다. 기존의 최소제곱 심층 Q 네트워크(LS-DQN) 방법이 이산적인 행동 공간에만 적용 가능한 한계를 극복하기 위해 DDPG에 LR을 적용하여 연속 행동 공간에서의 성능 향상을 목표로 합니다. MuJoCo 환경에서의 실험 결과, 일부 작업에서 LR 업데이트가 성능 향상을 가져왔지만, 정규화 항을 작게 만드는 데 어려움이 있음을 보였습니다.