본 논문은 부분적으로 관측 가능한 환경에서 더 안전한 알고리즘을 개발하기 위한 첫 단계로서, 환경 상태에 대한 불확실성과 선택된 정책의 결과의 변동성이라는 두 가지 형태의 불확실성을 다룹니다. 완전 관측 가능 영역에 대한 전체 수익 분포를 모델링하는 분포 강화 학습(DistRL)을 부분적으로 관측 가능한 마르코프 의사 결정 과정(POMDP)으로 확장하여, 에이전트가 각 조건부 계획에 대한 수익 분포를 학습할 수 있도록 합니다. 구체적으로, 부분 관측 가능성에 대한 새로운 분포 벨만 연산자를 도입하고 최대 p-Wasserstein 메트릭 하에서의 수렴성을 증명합니다. 또한, POMDP 솔버의 고전적인 알파 벡터를 일반화하는 psi 벡터를 통해 이러한 수익 분포의 유한 표현을 제안합니다. 이를 기반으로, psi 벡터를 표준 포인트 기반 백업 절차에 통합하는 분포 포인트 기반 값 반복(DPBVI)을 개발하여 DistRL과 POMDP 계획을 연결합니다. DPBVI는 수익 분포를 추적함으로써, 드물지만 영향이 큰 사건을 신중하게 관리해야 하는 영역에서 위험 민감 제어를 자연스럽게 가능하게 합니다. 강력한 의사 결정에 대한 추가 연구를 촉진하기 위해 소스 코드를 제공합니다.