Bài báo này khám phá việc sử dụng Định hình Phần thưởng Dựa trên Tiềm năng (PBRS) để giải quyết vấn đề kém hiệu quả của mẫu trong Học Tăng cường (RL). Chúng tôi nhấn mạnh khó khăn trong việc lựa chọn một hàm tiềm ẩn phù hợp và độ lệch vốn có khi sử dụng một chân trời hữu hạn do những hạn chế về tính toán. Sau đó, chúng tôi đưa ra cơ sở lý thuyết giải thích tại sao việc chọn một hàm giá trị tối ưu làm hàm tiềm ẩn lại cải thiện hiệu suất. Chúng tôi phân tích độ lệch do chân trời hữu hạn gây ra trong PBRS và, bằng cách tận dụng sự trừu tượng hóa để ước tính hàm giá trị tối ưu, chúng tôi đánh giá hiệu quả mẫu và tác động của PBRS lên hiệu suất trong bốn môi trường, bao gồm một nhiệm vụ điều hướng có mục tiêu và ba trò chơi trong Môi trường Học tập Arcade (ALE). Kết quả thực nghiệm chứng minh rằng một mạng lưới kết nối đầy đủ đơn giản có thể đạt được hiệu suất tương đương với giải pháp dựa trên CNN.