대규모 도시 환경에서 시각 및 언어 내비게이션(VLN) 문제를 해결하기 위해, 복잡한 장면에서 언어 지침을 해석하고 장기간의 경험을 기억해야 하는 에이전트를 위한 시스템을 제안한다. Mem4Nav는 어떤 VLN 백본에도 적용 가능한 계층적 공간 인지 장단기 기억 시스템이다. 이 시스템은 정교한 복셀 인덱싱을 위한 희소 octree와 고수준 랜드마크 연결을 위한 의미론적 토폴로지 그래프를 결합하여, 가역적 Transformer를 통해 임베딩된 학습 가능한 메모리 토큰에 저장한다. 장기 기억(LTM)은 octree 및 그래프 노드에서 과거 관찰을 압축하고 유지하며, 단기 기억(STM)은 실시간 장애물 회피 및 국부 계획을 위해 최근 멀티모달 항목을 상대 좌표로 캐시한다. 각 단계에서 STM 검색은 동적 컨텍스트를 크게 줄이며, 더 깊은 히스토리가 필요할 때 LTM 토큰은 과거 임베딩을 무손실로 재구성하기 위해 디코딩된다. Touchdown 및 Map2Seq에 대해, 3가지 백본(모듈형, 프롬프트 기반 LLM을 사용한 최첨단 VLN, 스트라이드 어텐션 MLLM을 사용한 최첨단 VLN)으로 평가한 결과, Mem4Nav는 Task Completion에서 7-13% 향상, SPD 감소, nDTW에서 10% 이상 향상을 보였다.