POMDPの信念状態の連続的な特性は、最適な政策学習にかなりの計算上の困難を提示する。本論文では,POMDPモデルを有限状態スーパーステートMDP(MDP)に近似してPORL問題を解決するアプローチを検討した。 Superstate MDPの最適値関数と元のPOMDPの最適値関数を結びつける理論的保証を提供し、これは従来の研究より改善された結果を得る。次に、Superstate MDPの最適ポリシーを学習するために線形関数近似を利用するポリシーベースの学習アプローチを提案する。提案された方法は、POMDPをMDPとして扱い、TD-learningとポリシーの最適化によって近似的に解決できることを示しています。ここで、MDPの状態は有限の履歴に対応し、近似誤差はこの履歴の長さに応じて指数関数的に減少します。さらに、真のダイナミクスがMarkovian以外の環境で標準TD学習を適用したときに生じる誤差を明示的に定量化する有限時間境界を提示します。