Bài báo này trình bày một phương pháp IL ngoại tuyến tận dụng dữ liệu chất lượng thấp, chưa được gắn nhãn để giải quyết tình trạng thiếu dữ liệu chuyên gia chất lượng cao và sự dịch chuyển đồng biến trong học tập mô phỏng (IL). Cụ thể, chúng tôi giới thiệu một khung tìm kiếm dựa trên trạng thái, kết nối các cặp trạng thái-hành động từ dữ liệu trình diễn chưa hoàn chỉnh, tạo ra các lộ trình huấn luyện đa dạng và giàu thông tin. Kết quả thực nghiệm chứng minh rằng phương pháp được đề xuất cải thiện đáng kể cả khả năng khái quát hóa và hiệu suất trên các chuẩn IL tiêu chuẩn và các tác vụ robot thực tế.