Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Following Route Instructions using Large Vision-Language Models: A Comparison between Low-level and Panoramic Action Spaces

Created by
  • Haebom

저자

Vebj{\o}rn Haug K{\aa}sene, Pierre Lison

개요

본 논문은 기존의 Vision-and-Language Navigation (VLN) 연구가 특정 작업에 최적화된 모델에 의존하는 경향이 있음을 지적하며, 상용화된 대규모 비전-언어 모델(LLM)을 활용하여 VLN 작업을 수행하는 가능성을 탐구합니다. 특히, 저수준의 행동 공간(egocentric view, atomic action)과 파노라마 행동 공간(discrete navigable viewpoints) 모두에서 오프더쉘 LLM인 Qwen2.5-VL-3B-Instruct의 성능을 평가합니다. R2R 데이터셋을 사용하여 미세 조정한 결과, 저수준 및 파노라마 행동 공간 모두에서 VLN 작업 수행 가능성을 확인하였으나, 전용 모델 대비 성능은 낮았습니다. (41% 성공률 달성)

시사점, 한계점

시사점: 상용화된 대규모 비전-언어 모델을 VLN 작업에 적용할 수 있는 가능성을 제시했습니다. 저수준 및 파노라마 행동 공간 모두에서 어느 정도의 성능을 달성할 수 있음을 보였습니다.
한계점: 전용 VLN 모델에 비해 성능이 낮았습니다 (41% 성공률). 오프더쉘 LLM의 VLN 작업 적용에 대한 추가적인 연구가 필요합니다. 모델의 아키텍처 수정이나 시뮬레이터 기반 훈련 없이 오직 미세 조정만으로 실험을 진행하여, 잠재적인 성능 향상 여지를 제한했습니다.
👍