Do Visual Imaginations Improve Vision-and-Language Navigation Agents?
Created by
Haebom
Category
Empty
저자
Akhil Perincherry, Jacob Krantz, Stefan Lee
개요
본 논문은 시각-언어 탐색(VLN) 에이전트가 자연어 명령어를 사용하여 미지의 환경을 탐색하는 작업을 연구합니다. 명령어에 내포된 하위 목표의 시각적 표현이 탐색 신호로 작용하여 탐색 성능을 향상시킬 수 있는지 여부를 조사합니다. 텍스트-이미지 확산 모델을 사용하여 분할된 명령어에 포함된 랜드마크 참조에 대한 시각적 표현(상상)을 생성하고, 이를 VLN 에이전트에 추가적인 모달리티로 제공하여 랜드마크 신호로 활용합니다. 또한, 해당 언급 표현과의 관계를 명시적으로 장려하기 위해 보조 손실 함수를 추가합니다. 실험 결과, 성공률(SR)이 약 1점 증가하고, 역 경로 길이(SPL)로 조정된 성공률이 최대 0.5점 증가하는 것을 확인했습니다. 이는 제안된 접근 방식이 언어 명령어만 사용하는 것보다 시각적 이해를 강화한다는 것을 시사합니다. 코드와 데이터는 https://www.akhilperincherry.com/VLN-Imagine-website/ 에서 확인할 수 있습니다.