Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Mem4Nav: Boosting Vision-and-Language Navigation in Urban Environments with a Hierarchical Spatial-Cognition Long-Short Memory System

Created by
  • Haebom

저자

Lixuan He, Haoyu Dong, Zhenxing Chen, Yangcheng Yu, Jie Feng, Yong Li

Mem4Nav: Hierarchical Spatial-Cognition Long-Short Memory for Vision-and-Language Navigation

개요

대규모 도시 환경에서 시각 및 언어 내비게이션(VLN) 문제를 해결하기 위해, 복잡한 장면에서 언어 지침을 해석하고 장기간의 경험을 기억해야 하는 에이전트를 위한 시스템을 제안한다. Mem4Nav는 어떤 VLN 백본에도 적용 가능한 계층적 공간 인지 장단기 기억 시스템이다. 이 시스템은 정교한 복셀 인덱싱을 위한 희소 octree와 고수준 랜드마크 연결을 위한 의미론적 토폴로지 그래프를 결합하여, 가역적 Transformer를 통해 임베딩된 학습 가능한 메모리 토큰에 저장한다. 장기 기억(LTM)은 octree 및 그래프 노드에서 과거 관찰을 압축하고 유지하며, 단기 기억(STM)은 실시간 장애물 회피 및 국부 계획을 위해 최근 멀티모달 항목을 상대 좌표로 캐시한다. 각 단계에서 STM 검색은 동적 컨텍스트를 크게 줄이며, 더 깊은 히스토리가 필요할 때 LTM 토큰은 과거 임베딩을 무손실로 재구성하기 위해 디코딩된다. Touchdown 및 Map2Seq에 대해, 3가지 백본(모듈형, 프롬프트 기반 LLM을 사용한 최첨단 VLN, 스트라이드 어텐션 MLLM을 사용한 최첨단 VLN)으로 평가한 결과, Mem4Nav는 Task Completion에서 7-13% 향상, SPD 감소, nDTW에서 10% 이상 향상을 보였다.

시사점, 한계점

시사점:
Mem4Nav는 VLN 성능을 향상시키는 새로운 아키텍처를 제시한다.
계층적 맵과 이중 메모리 모듈의 중요성을 확인했다.
다양한 VLN 백본에 적용 가능하며, 벤치마크에서 뛰어난 성능을 보였다.
오픈 소스 코드를 제공하여 재현 가능성을 높였다.
한계점:
구체적인 한계점은 논문 요약에서 명시적으로 언급되지 않았지만, VLN 관련 연구의 일반적인 문제점(예: 복잡한 환경에서의 일반화, 계산 비용 등)이 포함될 수 있다.
👍