본 논문은 환자 반응의 변화와 불규칙한 데이터 샘플링이 특징인 의료 환경에서 개인 맞춤형 치료 결정을 위한 새로운 모델 기반 강화 학습 프레임워크인 medDreamer를 제안합니다. medDreamer는 불규칙한 데이터로부터 잠재 환자 상태를 시뮬레이션하는 적응형 특징 통합 모듈을 포함하는 월드 모델과 실제 및 상상된 궤적의 하이브리드 데이터로 훈련된 2단계 정책을 특징으로 합니다. 이를 통해 기존의 임상 결정의 비최적성을 넘어서는 최적 정책을 학습하면서 실제 임상 데이터에 가깝게 유지할 수 있습니다. 패혈증 및 기계적 환기 치료 과제에 대한 대규모 전자 건강 기록(EHR) 데이터 세트 두 개를 사용하여 medDreamer를 평가한 결과, 모델 기반 및 모델 자유 기준보다 임상 결과 및 오프 정책 지표 모두에서 성능이 우수함을 보여줍니다.