본 논문은 다목적 강화학습(MORL)에서 오프라인 학습의 일반화 성능 향상에 초점을 맞추고 있습니다. 기존 오프라인 MORL 알고리즘은 실제 데이터셋의 보수적인 분포로 인해 분포 외(OOD) 선호도에 대한 일반화 성능이 떨어지는 문제를 가지고 있습니다. 이를 해결하기 위해, 본 논문은 선호도 조건부 확산 모델을 계획자로 활용하는 MODULI(Multi-objective Diffusion Planner with Sliding Guidance) 알고리즘을 제안합니다. MODULI는 다양한 선호도에 맞춰 궤적을 생성하고 의사결정을 위한 행동을 도출하며, 정확한 생성을 위해 다양한 선호도 하에서 수익 정규화 방법을 도입합니다. 또한, 슬라이딩 가이드 메커니즘을 통해 OOD 선호도에 대한 일반화 성능을 향상시켜 불완전한 파레토 프런트를 확장합니다. D4MORL 벤치마크 실험을 통해 기존 방법보다 우수한 OOD 선호도 일반화 성능을 보임을 확인했습니다.