본 논문은 로봇의 실제 환경에서의 VLN(Vision-and-Language Navigation) 과제의 한계를 극복하기 위해, 휴머노이드, 사족 보행 로봇 및 바퀴형 로봇을 지원하는 물리적으로 현실적인 VLN 플랫폼인 VLN-PE를 소개합니다. VLN-PE는 단일 단계 이산 행동 예측을 위한 분류 모델, 밀집한 웨이포인트 예측을 위한 확산 모델, 그리고 경로 계획과 통합된 훈련이 필요 없는 지도 기반 LLM(Large Language Model)을 포함한 다양한 VLN 방법을 체계적으로 평가합니다.
시사점, 한계점
•
로봇의 제한된 관찰 공간, 환경 조명 변화, 충돌 및 낙하와 같은 물리적 문제로 인해 성능 저하가 발생함을 발견했습니다.
•
다리 로봇의 복잡한 환경에서의 이동 제약 사항을 노출했습니다.
•
VLN-PE는 MP3D를 넘어 새로운 장면을 원활하게 통합하여 VLN 평가를 더욱 포괄적으로 수행할 수 있도록 합니다.
•
현재 모델의 실제 환경 배포에서의 일반화 약점을 확인했습니다.
•
VLN-PE는 cross-embodiment 전반의 적응성을 개선하는 새로운 길을 제시합니다.
•
본 연구의 결과와 도구는 VLN의 한계를 재고하고 견고하고 실용적인 VLN 모델을 발전시키는 데 기여할 것입니다.