자율 로봇이 복잡하고 비정형 환경에서 겪는 어려움을 해결하기 위해, 잠재된 요인을 온라인으로 학습하여 로봇의 내부 상태와 외부 세계에 대한 이해를 높이는 새로운 프레임워크를 제안합니다. Generalized Hidden Parameter Markov Decision Process를 사용하여, 관찰되지 않은 매개변수가 전이 역학과 보상 구조에 미치는 영향을 명시적으로 모델링합니다. 특히, 상태 전이의 결합 분포를 온라인으로 학습하여 잠재적인 자아 및 환경 요소를 표현합니다. 이는 다양한 상황에 적응하고 안전성을 향상시키며, Bayesian Online Changepoint Detection을 통해 동적 변화를 감지합니다. 마지막으로, 학습된 정보를 활용하여 상황에 맞는 의사 결정을 수행하며, 비정형 지형 탐색 실험을 통해 성능을 입증합니다.