DORAEMON은 시각-언어 모델(VLM) 기반의 제로샷 자율 항해의 한계를 극복하기 위해 개발된 인지 기반 프레임워크입니다. DORAEMON은 인간의 항해 능력을 모방하는 Ventral 및 Dorsal Streams로 구성되어 있으며, 계층적 의미-공간 융합, 토폴로지 맵, RAG-VLM, 정책-VLM을 통합하여 시공간 불연속성, 비구조적 메모리 표현, 부족한 작업 이해 문제를 해결합니다. 또한 Nav-Ensurance를 통해 항해 안전성과 효율성을 보장합니다. DORAEMON은 HM3D, MP3D, GOAT 데이터셋에서 최첨단 성능을 달성했으며, 새로운 평가 지표인 AORI를 도입하여 항해 지능을 더 잘 평가합니다.