본 논문은 확산 모델 기반 강화 학습(RL)에서 정책을 빠르고 안정적으로 미세 조정하기 위한 새로운 알고리즘 프레임워크인 Adam 기반 확산 정책 최적화(ADPO)를 제안합니다. 기존 확산 모델 기반 RL은 복잡한 정책 모델링 및 고차원 연속 제어 작업 처리에 효과적이지만, 최적화 속도와 안정성이 부족한 한계를 지닙니다. ADPO는 적응적 경사 하강법을 사용하여 이러한 문제를 해결하고, 표준 로봇 제어 작업에서 기존 방법들보다 우수하거나 비슷한 성능을 보임을 실험적으로 확인합니다. 여러 하이퍼파라미터의 민감도 분석을 통해 실제 적용을 위한 지침도 제공합니다.