본 논문은 가정용 서비스 로봇의 미지 환경 내 적응적 내비게이션 문제를 해결하기 위해, 인간의 내비게이션 능력을 모방한 새로운 인지 영감 기반 프레임워크인 DORAEMON을 제안한다. DORAEMON은 시공간적 불연속성을 처리하는 계층적 의미-공간 융합 및 토폴로지 맵을 구현하는 등쪽 경로(Dorsal Stream)와 의사결정을 개선하는 RAG-VLM 및 Policy-VLM을 결합하는 배쪽 경로(Ventral Stream)로 구성된다. 또한, 내비게이션의 안전성과 효율성을 보장하는 Nav-Ensurance를 개발하였다. HM3D, MP3D, GOAT 데이터셋을 사용한 실험 결과, DORAEMON은 기존 방법들을 상당히 능가하는 성공률(SR)과 경로 길이 가중 성공률(SPL)을 달성하며 최첨단 성능을 보였다. 새로운 평가 지표인 AORI를 도입하여 내비게이션 지능을 더 잘 평가하였다. 본 연구는 사전 지도 구축이나 사전 훈련 없이 제로샷 자율 내비게이션에서 DORAEMON의 효과를 보여준다.
시사점, 한계점
•
시사점:
◦
인간의 인지 시스템을 모방한 새로운 접근 방식을 제시하여 제로샷 자율 내비게이션 성능을 향상시켰다.
◦
시공간적 불연속성 문제를 효과적으로 해결하는 Hierarchical Semantic-Spatial Fusion and Topology Map을 제시하였다.
◦
RAG-VLM과 Policy-VLM을 결합하여 의사결정 과정을 개선하였다.
◦
새로운 평가 지표 AORI를 통해 내비게이션 지능을 더욱 정확하게 평가할 수 있게 되었다.