Este artículo aplica modelos de mundo, ampliamente utilizados en robótica, videojuegos y conducción autónoma, al procesamiento del lenguaje natural, específicamente a los sistemas conversacionales. Construimos un modelo de mundo conversacional para predecir emociones, sentimientos, intenciones y enunciados futuros del usuario. Definimos un Proceso de Decisión de Markov Parcialmente Observable (POMDP) para modelar emociones, sentimientos e intenciones como creencias del usuario, y proponemos un método para resolver cuellos de botella de información maximizando su impacto. Con base en este modelado de creencias del usuario, aplicamos un marco de aprendizaje por refuerzo basado en modelos al sistema conversacional, presentando un novedoso marco denominado DreamCUB. Los resultados experimentales demuestran que el modelo de mundo conversacional preentrenado alcanza un rendimiento de vanguardia en la clasificación de emociones y la identificación de sentimientos. Además, el entrenamiento combinado de los modelos de política, crítica y mundo conversacional mejora la calidad de la conversación. Un análisis posterior demuestra que el método propuesto mantiene un equilibrio adecuado entre exploración y explotación y demuestra una excelente transferibilidad a escenarios fuera del dominio, como las conversaciones empáticas.