본 논문은 인간과 함께하는 환경에서의 탐색을 위한 신경-상징적 모델 기반 강화 학습 아키텍처를 제안한다. 인간과의 상호작용을 고려한 탐색은 부분적으로 관측 가능한 마르코프 결정 과정(POMDP)으로 표현될 수 있으며, 이는 타인의 숨겨진 신념을 추론해야 함을 의미한다. 본 연구는 마음 이론(Theory of Mind)과 인식적 계획(Epistemic Planning)에 영감을 받아, 부분적으로 관측 가능한 환경에서의 신념 추적 문제를 해결하기 위한 신경-상징적 모델 기반 강화 학습 아키텍처와 구조화된 다중 에이전트 설정에서 영향 기반 추상화(IBA)를 활용한 신념 추정을 위한 관점 전환 연산자를 제시한다.