Este artículo presenta un marco basado en aprendizaje por refuerzo (RL) para el desarrollo eficiente de secuencias complejas de transformación de modelos (MT) en ingeniería basada en modelos. Las secuencias MT complejas son necesarias para diversos problemas, como la sincronización de modelos, la recuperación automática de modelos y la exploración del espacio de diseño. Sin embargo, su desarrollo manual es propenso a errores y complejo. En este artículo, proponemos un enfoque y un marco técnico que permite a un agente de RL encontrar secuencias MT óptimas mediante el asesoramiento del usuario, que puede incluir incertidumbre. Mapeamos MT definidos por el usuario con primitivas de RL y las ejecutamos como programas de RL para encontrar secuencias MT óptimas. Los resultados experimentales demuestran que, incluso en condiciones de incertidumbre, el asesoramiento del usuario mejora significativamente el rendimiento del RL, contribuyendo a un desarrollo más eficiente de MT complejas. Este estudio avanza en la metodología de ingeniería con intervención humana basada en RL al abordar el equilibrio entre la certeza y la oportunidad del asesoramiento del usuario.