본 논문은 최대 엔트로피 강화 학습(MaxEnt RL) 목표를 달성하기 위해 확산 모델을 정책 표현으로 사용하는 새로운 방법인 MaxEnt RL with Diffusion Policy (MaxEntDP)를 제안합니다. 기존의 Gaussian 정책 기반 SAC 알고리즘은 복잡한 다중 목표 환경에서 탐색 능력과 성능이 제한적이라는 한계를 가지는데, MaxEntDP는 다중 모드 분포를 잘 포착할 수 있는 확산 모델의 장점을 활용하여 이러한 한계를 극복합니다. Mujoco 벤치마크 실험 결과, MaxEntDP는 Gaussian 정책 및 다른 생성 모델 기반 MaxEnt RL 알고리즘을 능가하며, 최신 확산 모델 기반 온라인 강화 학습 알고리즘과 유사한 성능을 보입니다.