본 논문은 복잡하고 구조화되지 않은 환경에서 작동하는 자율 로봇의 내부 상태 및 외부 환경에 대한 이해를 방해하는 잠재적인, 관찰되지 않은 요소들로 인한 문제점을 해결하는 새로운 프레임워크를 제안합니다. 이를 위해 일반화된 숨겨진 매개변수 마르코프 의사결정 과정(Generalized Hidden Parameter Markov Decision Process)을 공식화하여 관찰되지 않은 매개변수가 전이 역학과 보상 구조에 미치는 영향을 명시적으로 모델링합니다. 핵심적인 혁신은 상태 전이의 결합 분포를 온라인으로 학습하는 것으로, 이는 잠재적인 자아 및 환경 요소를 표현하는 표현으로 작용합니다. 이 확률적 접근 방식은 다양한 작동 상황을 식별하고 적응하여 강건성과 안전성을 향상시킵니다. 베이지안 온라인 변화점 검출의 다변량 확장을 통해 기본 데이터 생성 과정의 변화를 구분하고, 최신 상태 전이의 결합 분포에서 도출된 현재 상황의 상징적 표현으로 로봇의 전이 모델을 정보화하여 적응적이고 상황 인식적인 의사 결정을 가능하게 합니다. 구조화되지 않은 지형 탐색이라는 어려운 작업에서 실제 효과를 보여주기 위해, 모의실험과 실제 환경에서 광범위한 실험을 수행하여 데이터 효율성, 정책 성능 및 더 안전하고 적응적인 탐색 전략의 출현에서 상당한 개선을 보였습니다.