Sign In

NavRAG: Generating User Demand Instructions for Embodied Navigation through Retrieval-Augmented LLM

Created by
  • Haebom
Category
Empty

저자

Zihan Wang, Yaohui Zhu, Gim Hee Lee, Yachun Fan

개요

Vision-and-Language Navigation (VLN)에서 데이터 부족 문제를 해결하기 위해, 본 논문은 NavRAG라는 retrieval-augmented generation (RAG) 프레임워크를 제안합니다. NavRAG는 LLM을 활용하여 계층적 장면 설명 트리를 구축하고, 다양한 사용자 역할을 시뮬레이션하여 장면 트리에서 필요한 정보를 검색하여 다양한 안내문을 생성합니다. 기존 방법들의 단순한 단계별 안내 생성 방식과 달리, 전역적 맥락과 고차원적인 작업 계획을 고려한 다양하고 사용자 친화적인 안내문을 생성하는 것을 목표로 합니다. 861개의 장면에 걸쳐 2백만 개 이상의 탐색 안내문을 주석화하여 데이터 품질과 학습된 모델의 탐색 성능을 평가했습니다.

시사점, 한계점

시사점:
LLM 기반 RAG 프레임워크를 활용하여 VLN 데이터 확장 문제를 효과적으로 해결할 수 있는 가능성을 제시합니다.
전역적 맥락과 고차원적 계획을 고려한 다양하고 사용자 친화적인 안내문 생성으로 VLN 모델의 성능 향상에 기여할 수 있습니다.
대규모의 고품질 VLN 데이터셋을 구축하여 후속 연구에 기여할 수 있습니다.
한계점:
LLM의 성능에 의존적이며, LLM의 한계가 NavRAG의 성능에 영향을 미칠 수 있습니다.
생성된 안내문의 품질과 다양성에 대한 객관적인 평가 기준이 필요합니다.
실제 사용자의 다양한 요구사항을 완벽하게 반영하는 데는 한계가 있을 수 있습니다.
👍