본 논문은 확산 정책(Diffusion Policies)의 높은 표현력에도 불구하고, 부족한 시범 데이터로 인해 최적이 아닌 궤적을 생성하거나 치명적인 실패를 초래할 수 있다는 문제점을 다룹니다. 기존 강화 학습(RL) 기반 미세 조정 방법들은 확산 모델에 Proximal Policy Optimization (PPO)를 효과적으로 적용하는 데 어려움을 겪는데, 이는 잡음 제거 과정에서의 행동 가능성 추정의 계산 복잡성 때문입니다. 본 논문에서는 확산 정책을 잡음 조건부 결정적 정책으로 재구성하는 새로운 프레임워크인 NCDPO를 제시합니다. NCDPO는 각 잡음 제거 단계를 사전 샘플링된 잡음을 조건으로 하는 미분 가능한 변환으로 취급하여, 모든 확산 시간 단계에서 추정 가능한 가능성 평가와 기울기 역전파를 가능하게 합니다. 실험 결과, NCDPO는 처음부터 학습할 때 MLP+PPO와 비슷한 샘플 효율을 달성하며, 연속 로봇 제어 및 다중 에이전트 게임 시나리오를 포함한 다양한 벤치마크에서 기존 방법보다 샘플 효율과 최종 성능 모두 뛰어남을 보여줍니다. 또한, 확산 정책의 잡음 제거 시간 단계 수에 대해서도 강건함을 보입니다.