본 논문은 오프라인 강화학습에서 정책 학습 시 발생하는 분포 불일치 문제를 해결하기 위해 새로운 정책 제약 방법인 Only Support Constraint (OSC)를 제안합니다. 기존 정책 제약 방법들이 지나친 보수성으로 인해 성능 향상에 제한을 받는 문제를 해결하고자, OSC는 행동 정책의 지지 집합 내에서 학습된 정책의 총 확률을 극대화하는 것을 목표로 합니다. OSC는 지지 집합 내부의 행동에 추가적인 제약을 가하지 않고, 오직 지지 집합에 대한 제약만을 부과하는 정규화 항을 제시합니다. 또한, 확산 모델을 활용하여 행동 정책의 지지 집합을 효과적으로 특징짓는 방법을 제시합니다. 다양한 오프라인 강화학습 벤치마크 실험 결과, OSC가 성능을 크게 향상시키고 분포 불일치 문제와 보수성 문제를 완화함을 보여줍니다.