Cet article applique des modèles de monde, largement utilisés en robotique, dans les jeux et la conduite autonome, au traitement du langage naturel, et plus particulièrement aux systèmes conversationnels. Nous construisons un modèle de monde conversationnel pour prédire les émotions, les sentiments, les intentions et les énoncés futurs des utilisateurs. Nous définissons un processus de décision markovien partiellement observable (POMDP) pour modéliser les émotions, les sentiments et les intentions sous forme de croyances des utilisateurs, et proposons une méthode pour résoudre les goulots d'étranglement informationnels en les maximisant. Sur la base de cette modélisation des croyances des utilisateurs, nous appliquons un cadre d'apprentissage par renforcement basé sur un modèle au système conversationnel, présentant un nouveau cadre appelé DreamCUB. Les résultats expérimentaux démontrent que le modèle de monde conversationnel pré-entraîné atteint des performances de pointe en matière de classification des émotions et d'identification des sentiments. De plus, l'entraînement combiné des modèles de politique, de critique et de monde conversationnel améliore la qualité conversationnelle. Une analyse plus approfondie démontre que la méthode proposée maintient un équilibre exploration-exploitation approprié et présente une excellente transférabilité à des scénarios hors domaine, tels que les conversations empathiques.