본 논문은 부분적으로 관찰 가능한 환경에서의 공간 추론을 수동적 예측 모델이 아닌, 지각과 행동이 밀접하게 결합된 맥락에서 접근합니다. 희소 보상으로 훈련된 순환 에이전트가 절차적으로 생성된 평면 미로를 풀면서 방향, 거리, 장애물 배치와 같은 메트릭 개념을 자율적으로 내면화할 수 있는지 연구합니다. 훈련 후, 에이전트는 보이지 않는 미로에서도 일관되게 최적 경로에 가까운 경로를 생성하며, 이는 내부적인 공간 모델의 존재를 시사합니다. 에이전트-환경 루프를 하이브리드 동적 시스템으로 보고, 상태 공간에서 안정적인 한계 순환을 확인하고, Ridge Representation을 사용하여 전체 궤적을 공통 메트릭 공간에 임베딩하여 행동을 특징짓습니다. 정준 상관 분석을 통해 신경 매니폴드와 행동 매니폴드 간의 강력한 선형 정렬을 확인하고, 가장 유익한 신경 차원의 표적화된 섭동은 탐색 성능을 크게 저하시킵니다. 이러한 동적, 표상적, 인과적 신호는 지속적인 감각 운동 상호 작용이 컴팩트하고 구현된 세계 모델의 자발적 출현에 충분하며, 해석 가능하고 전이 가능한 탐색 정책을 향한 원칙적인 경로를 제공함을 보여줍니다.