Cet article présente un cadre d'apprentissage par renforcement (RL) permettant de développer efficacement des séquences complexes de transformation de modèles (MT) en ingénierie basée sur les modèles. Des séquences MT complexes sont nécessaires pour résoudre divers problèmes, notamment la synchronisation de modèles, la récupération automatique de modèles et l'exploration de l'espace de conception. Cependant, leur développement manuel est source d'erreurs et complexe. Dans cet article, nous proposons une approche et un cadre technique permettant à un agent RL de trouver des séquences MT optimales grâce aux conseils de l'utilisateur, qui peuvent inclure une incertitude. Nous mappons les MT définies par l'utilisateur à des primitives RL et les exécutons comme des programmes RL pour trouver les séquences MT optimales. Les résultats expérimentaux démontrent que, même en cas d'incertitude, les conseils de l'utilisateur améliorent significativement les performances de l'RL, contribuant ainsi à un développement plus efficace de MT complexes. Cette étude fait progresser la méthodologie d'ingénierie humaine basée sur l'RL en abordant le compromis entre certitude et timing des conseils de l'utilisateur.