본 논문은 가정용 서비스 로봇의 미지 환경 내 적응적 내비게이션 문제를 해결하기 위해, 인간의 내비게이션 능력을 모방한 새로운 인지 영감 기반 프레임워크인 DORAEMON을 제안한다. DORAEMON은 시공간 불연속성을 처리하는 등급적 의미-공간 융합 및 위상 지도를 구현하는 배측 경로(Dorsal Stream)와 의사결정을 개선하는 RAG-VLM 및 정책-VLM을 결합하는 복측 경로(Ventral Stream)로 구성된다. 또한, 내비게이션의 안전성과 효율성을 보장하는 Nav-Ensurance를 개발하였다. HM3D, MP3D, GOAT 데이터셋에서 기존 방법들을 상당히 능가하는 성능을 달성하였으며, 새로운 평가 지표 AORI를 제시하여 내비게이션 지능을 더 잘 평가하였다. 본 연구는 사전 지도 구축이나 사전 훈련 없이 제로샷 자율 내비게이션의 효과를 보여준다.
시사점, 한계점
•
시사점:
◦
인간의 인지 과정을 모방한 새로운 프레임워크 DORAEMON을 통해 제로샷 자율 내비게이션 성능을 크게 향상시켰다.
◦
기존 VLM 기반 방법의 한계점인 시공간 불연속성, 비구조적 메모리 표현, 부족한 작업 이해 문제를 효과적으로 해결하였다.
◦
새로운 평가 지표 AORI를 제시하여 내비게이션 지능 평가의 객관성을 높였다.
◦
사전 지도 구축이나 사전 훈련 없이도 우수한 성능을 달성하여 실제 서비스 로봇 적용 가능성을 높였다.
•
한계점:
◦
제시된 AORI 지표의 일반화 가능성 및 타당성에 대한 추가적인 검증이 필요하다.
◦
다양한 환경 및 작업에 대한 DORAEMON의 일반화 성능에 대한 추가적인 연구가 필요하다.