NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning
Created by
Haebom
Category
Empty
저자
Bingqian Lin, Yunshuang Nie, Ziming Wei, Jiaqi Chen, Shikui Ma, Jianhua Han, Hang Xu, Xiaojun Chang, Xiaodan Liang
개요
본 논문은 Vision-and-Language Navigation (VLN) 문제에 대한 새로운 접근법인 Navigational Chain-of-Thought (NavCoT)를 제시합니다. NavCoT는 대규모 언어 모델(LLM)을 활용하여 자율적인 탐색 의사결정을 가능하게 하는 매개변수 효율적인 도메인 내 학습 전략입니다. LLM은 각 단계에서 다음 관찰을 예측하고, 지시사항과 가장 잘 일치하는 후보 관찰을 선택하며, 이전 단계의 추론을 기반으로 행동을 결정하는 방식으로 작동합니다. 형식화된 레이블을 통해 LLM은 더 나은 행동 결정을 위해 원하는 추론 과정을 생성하도록 학습합니다. Room-to-Room (R2R), Room-across-Room (RxR), Room-for-Room (R4R) 등 다양한 VLN 벤치마크에서 NavCoT는 직접적인 행동 예측 방식보다 우수한 성능을 보였으며, 특히 R2R 데이터셋에서 최신 GPT4 기반 접근 방식보다 약 7%의 성능 향상을 달성했습니다.
시사점, 한계점
•
시사점:
◦
매개변수 효율적인 도메인 내 학습을 통해 LLM 기반 VLN 에이전트의 성능을 크게 향상시킬 수 있음을 보여줌.
◦
LLM의 추론 과정을 활용하여 VLN 문제에 대한 해석력을 높임.
◦
실제 로봇 응용 분야에 적용 가능한 task-adaptive하고 scalable한 LLM 기반 에이전트 개발에 기여.