Bài báo này trình bày một khuôn khổ học phần thưởng cấu trúc mới, Hoàn thành Ma trận Nhận thức Chính sách (PAMC), để giải quyết những thách thức của học tăng cường phần thưởng thưa thớt (RL). PAMC khai thác cấu trúc thưa thớt và ít chiều gần đúng của ma trận phần thưởng trong điều kiện lấy mẫu có thiên vị chính sách. Nó sử dụng trọng số nằm ngửa để chứng minh sự đảm bảo phục hồi và thiết lập một giới hạn lỗi-hối tiếc có trọng số chuyến thăm liên kết lỗi hoàn thành với hiệu suất điều khiển. Khi giả định yếu đi, PAMC sẽ mở rộng khoảng tin cậy để quay lại khám phá một cách an toàn và dừng thuật toán. Về mặt thực nghiệm, PAMC cải thiện hiệu suất mẫu trên các chuẩn Atari-26, DM Control, MetaWorld MT50, D4RL offline RL và RL cơ sở, đồng thời vượt trội hơn DrQ-v2, DreamerV3, Agent57, T-REX/D-REX và PrefPPO trong các so sánh chính quy hóa tính toán. Những kết quả này làm nổi bật PAMC như một công cụ thực tế và có nguyên tắc khi có phần thưởng cấu trúc và đóng vai trò là ví dụ cụ thể đầu tiên về góc nhìn học phần thưởng cấu trúc rộng hơn.