Sign In

NavRAG: Generating User Demand Instructions for Embodied Navigation through Retrieval-Augmented LLM

Created by
  • Haebom
Category
Empty

저자

Zihan Wang, Yaohui Zhu, Gim Hee Lee, Yachun Fan

개요

Vision-and-Language Navigation (VLN)에서 고성능 모델 학습을 위한 대량의 데이터 확보가 어려운 문제를 해결하기 위해, 본 논문은 NavRAG라는 retrieval-augmented generation (RAG) 프레임워크를 제안합니다. NavRAG는 LLM을 활용하여 3D 환경에 대한 계층적 장면 설명 트리를 구축하고, 다양한 사용자 역할과 요구를 시뮬레이션하여 장면 트리에서 정보를 검색합니다. 이를 통해 사용자의 의도를 반영하는 다양한 탐색 지침을 생성하며, 861개의 장면에 걸쳐 2백만 개 이상의 탐색 지침을 주석화하여 데이터 품질과 모델 성능을 평가합니다. 기존 방법들의 단순한 단계별 지침 생성 및 지역적 탐색 경로 중심의 한계를 극복하고, 전역적 맥락과 고차원적인 작업 계획을 고려한 지침 생성을 목표로 합니다.

시사점, 한계점

시사점:
LLM 기반 RAG 프레임워크를 활용하여 기존 VLN 데이터 확장의 한계를 극복하고 대규모 고품질 데이터셋을 구축하는 새로운 방법 제시.
다양한 사용자 요구와 의도를 반영하는 풍부하고 다채로운 탐색 지침 생성 가능.
전역적 맥락과 고차원적 작업 계획을 고려한 더욱 효과적인 탐색 모델 학습 가능성 제시.
2백만 개 이상의 대규모 탐색 지침 데이터셋 공개를 통한 VLN 연구 발전에 기여.
한계점:
LLM의 성능에 의존적이며, LLM의 한계가 NavRAG의 성능에 영향을 미칠 수 있음.
생성된 지침의 품질과 다양성을 정량적으로 평가하는 객관적인 지표 개발 필요.
실제 사용자와의 상호작용을 고려하지 않은 시뮬레이션 기반 데이터셋 생성으로 인한 실제 환경 적용의 한계.
계층적 장면 설명 트리 구축의 복잡성 및 효율성 문제.
👍