본 논문은 강화학습에서 Q-학습의 느린 수렴 속도 문제를 해결하기 위해 제안된 SOR Q-학습의 한계점을 개선한 Sample-based, Model-free Double SOR Q-learning 알고리즘을 제시합니다. 기존 SOR Q-학습은 이완 파라미터가 전이 확률에 의존하고 과대추정 편향을 갖는 문제점이 있었는데, 본 논문에서 제안하는 알고리즘은 이러한 문제점들을 해결하여 편향이 감소된 학습을 가능하게 합니다. 이론적 및 실험적 분석을 통해 알고리즘의 성능을 검증하고, 표 형태 환경과 심층 강화학습 환경 모두에서 실험 결과를 제시합니다. 특히 표 형태 환경에서는 수렴 분석을, 심층 강화학습 환경에서는 대규모 문제 적용을 다룹니다.