En este artículo, proponemos un nuevo marco que integra un modelo de lenguaje a gran escala (LLM) y un gestor de diálogos basado en aprendizaje de refuerzo para conversaciones abiertas orientadas a objetivos. Al aprovechar el aprendizaje de refuerzo jerárquico para modelar las etapas estructurales de una conversación y el metaaprendizaje para mejorar su adaptabilidad a diferentes perfiles de usuario, podemos aprender de datos limitados, realizar transiciones fluidas entre etapas de la conversación y personalizar las respuestas a las necesidades heterogéneas de los usuarios. Al aplicar nuestro marco a entrevistas motivacionales para promover el cambio de comportamiento, demostramos que el gestor de diálogos propuesto supera al modelo base LLM de vanguardia en términos de recompensas, demostrando así los beneficios potenciales del condicionamiento LLM para generar sistemas de conversaciones abiertas orientadas a objetivos.