POMDP의 신념 상태의 연속적인 특성은 최적 정책 학습에 상당한 계산적 어려움을 제시합니다. 본 논문에서는 POMDP 모델을 유한 상태 MDP (Superstate MDP)로 근사하여 PORL 문제를 해결하는 접근 방식을 고려합니다. Superstate MDP의 최적 가치 함수와 원래 POMDP의 최적 가치 함수를 연결하는 이론적 보장을 제시하며, 이를 통해 기존 연구보다 개선된 결과를 얻습니다. 다음으로, Superstate MDP의 최적 정책을 학습하기 위해 선형 함수 근사를 활용하는 정책 기반 학습 접근 방식을 제안합니다. 제안된 방식은 POMDP를 MDP로 취급하여 TD-learning과 정책 최적화를 통해 근사적으로 해결할 수 있음을 보여줍니다. 여기서 MDP 상태는 유한한 히스토리에 해당하며, 근사 오차는 이 히스토리의 길이에 따라 지수적으로 감소합니다. 또한, 진정한 역학이 Markovian이 아닌 환경에서 표준 TD 학습을 적용할 때 발생하는 오차를 명시적으로 정량화하는 유한 시간 경계를 제시합니다.