Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

TRAVEL: Training-Free Retrieval and Alignment for Vision-and-Language Navigation

Created by
  • Haebom

저자

Navid Rajabi, Jana Kosecka

개요

본 논문은 Vision-Language Navigation (VLN) 문제를 네 개의 하위 모듈로 분해하는 모듈식 접근 방식을 제안합니다. 각 모듈은 최신 Large Language Models (LLMs) 및 Vision-Language Models (VLMs)을 제로샷 설정에서 사용합니다. 자연어로 된 내비게이션 지침이 주어지면, 먼저 LLM을 사용하여 랜드마크와 방문 순서를 추출합니다. 환경의 알려진 모델을 가정하고, 마지막 랜드마크의 상위 k개 위치를 검색하고, 환경의 위상 지도에서 최단 경로 알고리즘을 사용하여 시작 위치에서 마지막 랜드마크까지 k개의 경로 가설을 생성합니다. 각 경로 가설은 파노라마 시퀀스로 표현됩니다. 그런 다음 동적 프로그래밍을 사용하여 파노라마 시퀀스와 랜드마크 이름 시퀀스 간의 정렬 점수를 계산하는데, 이는 VLM에서 얻은 일치 점수와 일치합니다. 마지막으로, 가장 높은 정렬 점수를 생성하는 가설에 대한 nDTW 메트릭을 계산하여 경로 충실도를 평가합니다. 복잡한 R2R-Habitat 지침 데이터 세트에서 VLMaps와 같은 공동 의미 지도를 사용하는 다른 접근 방식과 비교하여 우수한 성능을 보여주고, 내비게이션 성능에 대한 시각적 기반의 영향을 자세히 정량화합니다.

시사점, 한계점

시사점:
모듈식 접근 방식을 통해 VLN 문제를 효과적으로 해결
LLM과 VLM의 제로샷 활용으로 데이터 의존성 감소
R2R-Habitat 데이터셋에서 기존 방법 대비 우수한 성능
시각적 기반의 내비게이션 성능에 대한 정량적 분석 제공
한계점:
환경의 알려진 모델을 가정하므로, 미지의 환경에서는 성능 저하 가능성
최단 경로 알고리즘 사용으로 최적 경로가 아닌 경우 존재
nDTW 메트릭 사용의 한계 및 다른 평가 지표 고려 필요
LLM과 VLM의 성능에 의존적이며, 모델의 성능 향상에 따라 성능 변화 가능성 존재
👍