Dual-Anchoring: Addressing State Drift in Vision-Language Navigation

Author

Haebom

저자

Kangyi Wu, Pengna Li, Kailin Lyu, Xi Lin, Lin Zhao, Qingrong He, Jinjun Wang, Jianyi Liu

💡 개요

본 논문은 자연어 지시를 따라 3D 환경을 탐색하는 비전-언어 내비게이션(VLN)에서 발생하는 '상태 드리프트' 문제를 해결하고자 합니다. 이를 위해, 완료된 하위 목표와 남은 하위 목표를 구분하도록 지시 진행 상황을 고정하는 'Instruction Progress Anchoring'과 과거 관찰을 명확하게 검증하고 방문한 랜드마크의 표현을 유지하도록 유도하는 'Memory Landmark Anchoring'을 포함하는 'Dual-Anchoring Framework'를 제안합니다. 제안된 방법은 긴 시나리오에서 상태 드리프트로 인한 실패를 크게 줄여 성공률을 향상시켰습니다.

🔑 시사점 및 한계

•

명확한 하위 목표 추적: 제안된 방법론은 에이전트가 지시의 진행 상황을 명확하게 인지하고 구분하도록 함으로써, 장거리 임무 수행 시 목표 달성률을 높일 수 있습니다.

•

기억력 및 랜드마크 인식 강화: 과거 관찰을 되돌아보고 랜드마크를 재확인하는 메커니즘은 에이전트의 기억력 저하로 인한 혼란을 줄이고, 중요한 지점을 놓치지 않도록 돕습니다.

•

데이터셋 구축의 중요성: 두 개의 대규모 데이터셋 구축은 제안된 방법론의 효과적인 학습과 검증을 가능하게 했으며, 이는 향후 VLN 연구에도 기여할 것입니다.

•

데이터 생성 및 모델 복잡성: 새롭게 구축된 데이터셋의 방대한 규모와 제안된 방법론의 복잡성은 실제 적용 시 계산 자원 및 구현의 어려움을 야기할 수 있습니다.

PDF 보기

Made with Slashpage