본 논문은 인간과 함께 환경을 이동하는 에이전트를 위한 사회적 탐색 방법을 제안한다. 순차적 의사결정 프레임워크 하에서 자기중심적 탐색은 마르코프 의사결정 과정(MDP)으로 표현될 수 있지만, 사회적 탐색은 타인의 숨겨진 신념을 추론해야 하므로 부분적으로 관측 가능한 마르코프 의사결정 과정(POMDP)으로 이어진다. 본 논문에서는 심리이론(Theory of Mind)과 인식적 계획(Epistemic Planning)에서 영감을 받아, 부분적으로 관측 가능한 환경에서 신념 추적의 과제를 해결하는 신경 기호 모델 기반 강화 학습 아키텍처와 구조화된 다중 에이전트 설정에서 영향 기반 추상화(IBA)에 대한 최근 연구를 활용한 신념 추정을 위한 관점 전환 연산자를 제안한다.