Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Unseen from Seen: Rewriting Observation-Instruction Using Foundation Models for Augmenting Vision-Language Navigation

Created by
  • Haebom
Category
Empty

저자

Ziming Wei, Bingqian Lin, Yunshuang Nie, Jiaqi Chen, Shikui Ma, Hang Xu, Xiaodan Liang

개요

본 논문은 Vision-Language Navigation (VLN) 분야에서 데이터 부족 문제를 해결하기 위해 새로운 데이터 증강 기법인 Rewriting-driven AugMentation (RAM)을 제안합니다. RAM은 기존의 시뮬레이터 데이터 의존이나 웹 데이터 수집의 어려움을 극복하고자, 사람이 주석한 기존 훈련 데이터를 재작성하여 새로운 관측-지시어 쌍을 생성합니다. 구체적으로, Vision-Language Models (VLMs)과 Large Language Models (LLMs)을 활용하여 객체 풍부한 장면 설명을 생성하고, Text-to-Image Generation Models (T2IMs)을 통해 다양한 객체와 공간 배치를 가진 관측 데이터를 합성합니다. 또한, LLMs을 이용하여 원본과 새 관측 간의 차이를 이유하는 관측-대조 지시어 재작성을 수행합니다. 마지막으로, 랜덤 관측 자르기 기법과 함께 혼합-집중 훈련 전략을 통해 데이터 분포의 다양성을 높이고 증강 데이터 노이즈를 억제합니다. R2R, REVERIE, R4R, R2R-CE 데이터셋에서의 실험 결과, RAM 기법이 우수한 성능과 일반화 능력을 보임을 보여줍니다.

시사점, 한계점

시사점:
VLN 분야의 데이터 부족 문제 해결을 위한 효과적인 데이터 증강 기법 제시
시뮬레이터나 웹 데이터에 의존하지 않고 기존 데이터를 활용하여 새로운 데이터 생성
VLMs, LLMs, T2IMs를 활용한 창의적인 데이터 증강 전략 제시
혼합-집중 훈련 전략을 통해 증강 데이터 노이즈 억제 및 성능 향상
다양한 VLN 환경 (discrete 및 continuous)에서 우수한 성능 및 일반화 능력 입증
공개된 코드를 통해 재현성 확보
한계점:
제안된 방법의 성능이 LLMs과 VLMs, T2IMs의 성능에 의존적일 수 있음. 해당 모델들의 한계가 RAM의 성능을 제한할 수 있음.
재작성 과정에서 발생할 수 있는 오류나 편향이 모델의 성능에 영향을 미칠 수 있음.
대규모 데이터셋에 대한 적용 결과가 제시되지 않아, 실제 대규모 환경에서의 일반화 능력에 대한 추가적인 검증 필요.
다양한 유형의 오류에 대한 견고성 평가가 부족함.
👍