Bài báo này trình bày một khuôn khổ dựa trên học tăng cường (RL) để phát triển hiệu quả các chuỗi chuyển đổi mô hình (MT) phức tạp trong kỹ thuật dựa trên mô hình. Các chuỗi MT phức tạp là cần thiết cho nhiều vấn đề, bao gồm đồng bộ hóa mô hình, phục hồi mô hình tự động và khám phá không gian thiết kế. Tuy nhiên, việc phát triển chúng theo cách thủ công dễ xảy ra lỗi và đầy thách thức. Trong bài báo này, chúng tôi đề xuất một phương pháp tiếp cận và khuôn khổ kỹ thuật cho phép tác nhân RL tìm ra các chuỗi MT tối ưu bằng cách sử dụng lời khuyên của người dùng, có thể bao gồm cả sự không chắc chắn. Chúng tôi ánh xạ các MT do người dùng xác định thành các nguyên hàm RL và thực thi chúng dưới dạng các chương trình RL để tìm ra các chuỗi MT tối ưu. Kết quả thử nghiệm chứng minh rằng ngay cả trong điều kiện không chắc chắn, lời khuyên của người dùng vẫn cải thiện đáng kể hiệu suất RL, góp phần phát triển hiệu quả hơn các MT phức tạp. Nghiên cứu này thúc đẩy phương pháp luận kỹ thuật vòng lặp con người dựa trên RL bằng cách giải quyết sự đánh đổi giữa tính chắc chắn và thời gian của lời khuyên của người dùng.