Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning

Created by
  • Haebom
Category
Empty

저자

Bingqian Lin, Yunshuang Nie, Ziming Wei, Jiaqi Chen, Shikui Ma, Jianhua Han, Hang Xu, Xiaojun Chang, Xiaodan Liang

개요

본 논문은 Vision-and-Language Navigation (VLN) 문제에 대한 새로운 접근법인 Navigational Chain-of-Thought (NavCoT)를 제시합니다. NavCoT는 대규모 언어 모델(LLM)을 활용하여 자율적인 탐색 의사결정을 가능하게 하는 매개변수 효율적인 도메인 내 학습 전략입니다. LLM은 각 단계에서 다음 관찰을 예측하고, 지시사항과 가장 잘 일치하는 후보 관찰을 선택하며, 이전 단계의 추론을 기반으로 행동을 결정하는 방식으로 작동합니다. 형식화된 레이블을 통해 LLM은 더 나은 행동 결정을 위해 원하는 추론 과정을 생성하도록 학습합니다. Room-to-Room (R2R), Room-across-Room (RxR), Room-for-Room (R4R) 등 다양한 VLN 벤치마크에서 NavCoT는 직접적인 행동 예측 방식보다 우수한 성능을 보였으며, 특히 R2R 데이터셋에서 최신 GPT4 기반 접근 방식보다 약 7%의 성능 향상을 달성했습니다.

시사점, 한계점

시사점:
매개변수 효율적인 도메인 내 학습을 통해 LLM 기반 VLN 에이전트의 성능을 크게 향상시킬 수 있음을 보여줌.
LLM의 추론 과정을 활용하여 VLN 문제에 대한 해석력을 높임.
실제 로봇 응용 분야에 적용 가능한 task-adaptive하고 scalable한 LLM 기반 에이전트 개발에 기여.
간단한 파라미터 효율적인 fine-tuning으로 최첨단 성능 달성.
한계점:
제시된 방법의 일반화 성능에 대한 추가적인 검증 필요.
다양한 환경 및 지시사항에 대한 로버스트니스 평가 필요.
실제 로봇 플랫폼에 적용 시 발생할 수 있는 문제점에 대한 분석 필요.
👍