본 논문은 희소 보상 강화학습(RL)의 어려움을 해결하기 위해 정책 인식 행렬 완성(PAMC)이라는 새로운 구조적 보상 학습 프레임워크를 제시합니다. PAMC는 정책에 편향된 샘플링 하에서 보상 행렬의 근사적 저차원 + 희소 구조를 활용합니다. 역-경향 가중치를 사용하여 복구 보장을 증명하고, 완성 오류와 제어 성능을 연결하는 방문 가중 오류-후회 경계를 설정합니다. 가정이 약해지면 PAMC는 안전하게 탐색으로 돌아가도록 신뢰 구간을 넓히고 알고리즘을 중단합니다. 실험적으로 PAMC는 Atari-26, DM Control, MetaWorld MT50, D4RL 오프라인 RL 및 기본 설정 RL 벤치마크에서 샘플 효율성을 향상시키며, 계산 정규화 비교에서 DrQ-v2, DreamerV3, Agent57, T-REX/D-REX 및 PrefPPO를 능가합니다. 본 연구 결과는 PAMC가 구조적 보상이 존재할 때 실용적이고 원칙적인 도구이며, 더 넓은 구조적 보상 학습 관점의 구체적인 첫 번째 예시임을 강조합니다.