Model-based offline Reinforcement Learning (RL)은 오프라인 데이터셋으로부터 환경 모델을 구성하여 보수적인 정책 최적화를 수행합니다. 기존 접근 방식은 앙상블 모델을 통해 상태 전이를 학습하고, 외삽 오류를 완화하기 위해 보수적인 추정을 수행하는 데 중점을 둡니다. 하지만 정적 데이터는 강력한 정책을 개발하는 것을 어렵게 하고, 오프라인 에이전트는 새로운 데이터를 수집하기 위해 환경에 접근할 수 없습니다. 본 논문에서는 이러한 문제를 해결하기 위해 Adversarial data augmentation을 사용한 Model-based Offline Reinforcement Learning (MORAL)을 제시합니다. MORAL은 고정된 지평선 rollout을 대체하여 앙상블 모델로 교대로 샘플링을 수행하는 adversarial data augmentation을 사용하여 훈련 데이터를 풍부하게 합니다. 특히, 이 adversarial 과정은 편향된 샘플링을 위해 정책에 반하는 앙상블 모델을 동적으로 선택하여 고정된 모델의 낙관적인 추정을 완화하고, 따라서 정책 최적화를 위한 훈련 데이터를 강력하게 확장합니다. 또한, 외삽에서의 오류 최소화를 보장하기 위해 차별 계수가 adversarial 과정에 통합됩니다. 이 데이터 증강 최적화는 rollout 지평선 조정 없이 다양한 오프라인 작업에 적응하여 놀라운 적용성을 보여줍니다. D4RL 벤치마크에 대한 광범위한 실험은 MORAL이 정책 학습과 샘플 효율성 측면에서 다른 model-based offline RL 방법보다 우수함을 보여줍니다.