Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

UNeMo: Collaborative Visual-Language Reasoning and Navigation via a Multimodal World Model

Created by
  • Haebom
Category
Empty

저자

Changxin Huang, Lv Tang, Zhaohuan Zhan, Lisha Yu, Runhao Zeng, Zun Liu, Zhengjie Wang, Jianqiang Li

개요

본 논문은 Vision-and-Language Navigation (VLN)에서 시각 및 언어적 추론 능력을 향상시키기 위한 새로운 프레임워크인 UNeMo를 소개합니다. UNeMo는 Multimodal World Model (MWM)을 사용하여 시각적 특징, 언어 지침 및 네비게이션 동작을 입력으로 받아 다음 시각적 상태를 예측함으로써 상호 모달 추론을 가능하게 합니다. Hierarchical Prediction-Feedback (HPN) 메커니즘을 통해 MWM과 네비게이션 정책 간의 협업적 최적화를 수행하여, MWM 추론이 네비게이션 정책을 최적화하고 정책 결정이 MWM의 추론 정확도를 향상시키는 동적 양방향 승진 메커니즘을 구축합니다. R2R 및 REVERIE 데이터셋 실험 결과, UNeMo는 기존 SOTA 방법보다 네비게이션 정확도에서 2.1% 및 0.7% 향상을 보였습니다.

시사점, 한계점

시사점:
MWM을 통한 시각적 상태 예측 및 상호 모달 추론 능력 향상.
HPN 메커니즘을 통한 MWM과 네비게이션 정책의 협업적 최적화.
R2R 및 REVERIE 데이터셋에서 SOTA 성능 달성.
한계점:
논문에서 구체적인 한계점에 대한 언급은 없음. (하지만, 모든 VLN 모델의 공통적인 문제점인, 복잡한 환경에서의 일반화 능력과 실세계 적용의 어려움 등은 잠재적인 한계점으로 볼 수 있음.)
👍