Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Words into World: A Task-Adaptive Agent for Language-Guided Spatial Retrieval in AR

Created by
  • Haebom
Category
Empty

저자

Lixing Guo, Tobias Hollerer

개요

본 논문은 기존의 고정된 객체 감지기나 fiducial marker에 의존하는 증강 현실(AR) 시스템의 한계를 극복하기 위해, 멀티모달 대규모 언어 모델(MLLMs)과 시각 모델을 통합한 모듈형 AR 에이전트 시스템을 제안합니다. 이 시스템은 복잡한 자연어 쿼리를 해석하고, 공간 내 관계 추론을 수행하며, 물리적 환경에서 언어 기반 공간 검색을 가능하게 합니다. 3D 앵커를 반환하며, 9가지 유형의 관계를 인코딩하는 동적 AR 장면 그래프를 구축하여 MLLMs가 객체의 존재뿐만 아니라 3D 공간에서의 관계와 상호 작용을 이해하도록 돕습니다. 또한, 작업 적응형 관심 영역 강조 및 상황별 공간 검색을 통해 인간의 주의를 정보 밀도가 높은 영역으로 유도하고, 복잡한 쿼리에 대한 좌표 인식 도구를 동적으로 호출하여 물리적 작업에서 언어 이해를 구체화합니다. 마지막으로, 다양한 환경에서 언어 기반 실제 세계 위치 파악 및 관계 구체화를 평가하기 위한 GroundedAR-Bench를 소개합니다.

시사점, 한계점

시사점:
MLLMs과 공간 인식을 통합하여 AR 시스템의 복잡한 자연어 쿼리 처리 능력 향상.
3D 공간에서 객체 간 관계를 이해하고 추론하는 능력 제공.
작업 적응형 도구와 인간-중심적 상호 작용을 통해 사용자 경험 개선.
모듈형 아키텍처를 통해 다양한 비전-언어 모델의 플러그 앤 유즈 가능.
GroundedAR-Bench를 통한 시스템 평가 프레임워크 제공.
한계점:
구체적인 한계점은 논문에 명시되지 않음. (논문 요약에 한계점 언급 없음)
👍