본 논문은 로보틱스, 게임, 자율주행 등에서 널리 활용되는 월드 모델을 자연어 처리, 특히 대화 시스템에 적용한 연구입니다. 대화 월드 모델을 구축하여 사용자의 감정, 정서, 의도, 그리고 미래 발화를 예측하는 것을 목표로 합니다. POMDP(Partially Observable Markov Decision Process)를 정의하여 감정, 정서, 의도를 사용자의 신념으로 모델링하고, 정보 병목 현상을 최대화하여 해결하는 방식을 제안합니다. 이러한 사용자 신념 모델링을 기반으로 모델 기반 강화 학습 프레임워크를 대화 시스템에 적용하여 DreamCUB라는 새로운 프레임워크를 제시합니다. 실험 결과, 사전 훈련된 대화 월드 모델은 감정 분류와 정서 식별에서 최첨단 성능을 달성하였으며, 정책, 비평가, 대화 월드 모델의 결합 훈련을 통해 대화 품질 또한 향상되었습니다. 추가 분석을 통해 제안된 방법이 적절한 탐색-활용 균형을 유지하고 공감 대화와 같은 도메인 외 시나리오로의 전이 성능도 우수함을 보여줍니다.