부분적으로 관측 가능한 마르코프 의사결정 과정(POMDPs)은 불확실성 하에서 순차적 의사결정의 특정 환경을 모델링합니다. 중요하게도, POMDPs에 대한 최적 정책은 환경의 변화에 대해 강건하지 않을 수 있습니다. 숨겨진 모델 POMDPs(HM-POMDPs)는 공유된 행동 및 관측 공간을 가진 POMDPs 즉, 여러 다른 환경 모델 집합을 포착합니다. 직관적으로, 참 모델은 잠재적 모델 집합 중에 숨겨져 있으며, 실행 시간에 어떤 모델이 환경이 될지는 알 수 없습니다. 주어진 HM-POMDP에 대한 정책은 각 POMDP에 대해 충분한 성능을 달성하는 경우 강건합니다. 본 논문에서는 두 가지 직교 기법을 결합하여 이러한 강건한 정책을 계산합니다. (1) HM-POMDP 내에서 최악의 경우 POMDP를 계산하여 추적 가능한 강건한 정책 평가를 지원하는 연역적 형식 검증 기법과 (2) 최악의 경우 POMDP에 대한 후보 정책을 최적화하기 위한 하강도 상승. 실험적 평가는 비교 기준과 비교하여 본 논문의 접근 방식이 (1) 더 강건하고 미지의 POMDP로 더 잘 일반화되는 정책을 생성하고 (2) 10만 개가 넘는 환경으로 구성된 HM-POMDP로 확장됨을 보여줍니다.