यह शोधपत्र रोबोटिक्स, गेम्स और स्वचालित ड्राइविंग में व्यापक रूप से उपयोग किए जाने वाले विश्व मॉडलों को प्राकृतिक भाषा प्रसंस्करण, विशेष रूप से, संवादी प्रणालियों पर लागू करता है। हम उपयोगकर्ता की भावनाओं, मनोभावों, इरादों और भविष्य के कथनों का पूर्वानुमान लगाने के लिए एक संवादी विश्व मॉडल का निर्माण करते हैं। हम भावनाओं, मनोभावों और इरादों को उपयोगकर्ता के विश्वासों के रूप में मॉडल करने के लिए एक आंशिक रूप से अवलोकनीय मार्कोव निर्णय प्रक्रिया (POMDP) को परिभाषित करते हैं, और उन्हें अधिकतम करके सूचना अवरोधों को हल करने की एक विधि प्रस्तावित करते हैं। इस उपयोगकर्ता विश्वास मॉडलिंग के आधार पर, हम संवादी प्रणाली पर एक मॉडल-आधारित सुदृढीकरण अधिगम ढाँचा लागू करते हैं, और ड्रीमक्यूब नामक एक नवीन ढाँचा प्रस्तुत करते हैं। प्रायोगिक परिणाम प्रदर्शित करते हैं कि पूर्व-प्रशिक्षित संवादी विश्व मॉडल भावना वर्गीकरण और भावना पहचान में अत्याधुनिक प्रदर्शन प्राप्त करता है। इसके अलावा, नीति, आलोचक और संवादी विश्व मॉडलों के संयुक्त प्रशिक्षण से संवादी गुणवत्ता में सुधार होता है। आगे के विश्लेषण से पता चलता है कि प्रस्तावित विधि एक उचित अन्वेषण-शोषण संतुलन बनाए रखती है और गैर-डोमेन परिदृश्यों, जैसे कि सहानुभूतिपूर्ण वार्तालापों, में उत्कृष्ट स्थानांतरणीयता प्रदर्शित करती है।