Bài báo này đề xuất một phương pháp học tăng cường ngược (IRL) mới giải quyết tính cứng nhắc của các cấu trúc phần thưởng cố định và tính không linh hoạt của quy định phần thưởng ngầm. Dựa trên khuôn khổ IRL entropy cực đại, phương pháp này kết hợp một bộ điều chỉnh chênh lệch thời gian bình phương (TD) với một mục tiêu thích ứng phát triển động trong quá trình đào tạo, áp đặt các ranh giới thích ứng lên các phần thưởng được khôi phục và tạo điều kiện cho việc ra quyết định mạnh mẽ. Để nắm bắt thông tin về phần thưởng phong phú hơn, học tăng cường phân phối được kết hợp vào quá trình đào tạo. Về mặt thực nghiệm, phương pháp được đề xuất đạt được hiệu suất ở cấp độ chuyên gia đối với nhiệm vụ MuJoCo phức tạp và vượt trội hơn các phương pháp cơ bản đối với các nhiệm vụ giống người trong ba lần trình diễn. Các thí nghiệm mở rộng và nghiên cứu cắt bỏ xác nhận thêm hiệu quả của phương pháp này và cung cấp thông tin chi tiết về động lực phần thưởng trong học tập bắt chước.