Bài báo này trình bày một phương pháp được đề xuất để giải quyết thách thức học hàm thưởng hiệu quả trong các tình huống thực tế, nơi tín hiệu thưởng cực kỳ hiếm. Phương pháp được đề xuất thực hiện việc hình thành phần thưởng bằng cách sử dụng tất cả các chuyển đổi, bao gồm cả chuyển đổi không có phần thưởng. Cụ thể, nó kết hợp học bán giám sát (SSL) và một kỹ thuật tăng cường dữ liệu mới để học các biểu diễn không gian quỹ đạo từ chuyển đổi không có phần thưởng, do đó nâng cao hiệu quả hình thành phần thưởng. Kết quả thử nghiệm trên các trò chơi Atari và thao tác robot chứng minh rằng phương pháp được đề xuất vượt trội hơn các phương pháp dựa trên học có giám sát trong suy luận phần thưởng và cải thiện điểm số của tác nhân. Đặc biệt, trong các môi trường mà phần thưởng thậm chí còn khan hiếm hơn, phương pháp được đề xuất đạt được điểm số tốt nhất trong lớp, cao gấp đôi so với các phương pháp hiện có. Kỹ thuật tăng cường dữ liệu entropy kép được đề xuất cải thiện đáng kể hiệu suất, đạt được điểm số tốt nhất trong lớp cao hơn 15,8% so với các phương pháp tăng cường khác.