Sign In

STRIDER: Navigation via Instruction-Aligned Structural Decision Space Optimization

Created by
  • Haebom
Category
Empty

저자

Diqi He, Xuehao Gao, Hao Li, Junwei Han, Dingwen Zhang

개요

Zero-shot Vision-and-Language Navigation in Continuous Environments (VLN-CE)에서 자연어 지시를 사용하여 에이전트가 이전에 보지 못한 3D 환경을 탐색하는 과제를 다룬다. 장기 실행 동안 에이전트의 행동이 공간 구조와 작업 의도에 맞춰야 하는 것이 중요한 과제이다. 본 논문에서는 공간 레이아웃 사전과 동적 작업 피드백을 통합하여 에이전트의 결정 공간을 체계적으로 최적화하는 새로운 프레임워크인 STRIDER (Instruction-Aligned Structural Decision Space Optimization)를 제안한다. STRIDER는 공간 구조를 통해 행동 공간을 제한하는 구조적 웨이포인트 생성기와 작업 진행 상황에 따라 동작을 조정하여 탐색 전반에 걸쳐 의미적 정렬을 보장하는 작업 정렬 조절기를 도입한다. R2R-CE 및 RxR-CE 벤치마크에서 기존 SOTA를 능가하는 성능을 보였으며, 특히 성공률(SR)을 29%에서 35%로 향상시켰다.

시사점, 한계점

시사점:
공간적으로 제약된 의사 결정과 피드백 기반 실행이 zero-shot VLN-CE의 탐색 충실도를 향상시키는 데 중요하다는 것을 보여줌.
STRIDER는 SOTA를 능가하는 성능을 보여줌.
구조적 웨이포인트 생성기와 작업 정렬 조절기가 핵심적인 역할 수행.
한계점:
논문에서 한계점에 대한 직접적인 언급은 없음.
👍