본 논문은 오프라인 모델 기반 강화 학습(MBRL)의 성능 저하 원인을 모델과 정책 학습 간의 목표 불일치로 분석하고, 이를 해결하기 위한 새로운 알고리즘 BECAUSE를 제시합니다. BECAUSE는 상태와 행동에 대한 인과적 표현을 학습하여 데이터 분포 변화의 영향을 줄임으로써 목표 불일치 문제를 완화합니다. 18가지 다양한 작업에 대한 실험 결과, BECAUSE는 기존 알고리즘보다 우수한 성능을 보이며, 데이터 샘플 수나 교란 변수의 수에 대한 일반화 및 강건성을 보여줍니다. 또한, 인과적 표현을 통합한 오프라인 MBRL의 오차 경계와 표본 효율성을 이론적으로 분석합니다.