Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Seeing is Believing: Belief-Space Planning with Foundation Models as Uncertainty Estimators

Created by
  • Haebom

저자

Linfeng Zhao, Willie McClinton, Aidan Curtis, Nishanth Kumar, Tom Silver, Leslie Pack Kaelbling, Lawson L. S. Wong

개요

본 논문은 개방형 세계 환경에서의 일반화 가능한 로봇 모바일 조작의 어려움(긴 시간 지평선, 복잡한 목표, 부분 관측 가능성)을 해결하기 위해 매개변수화된 기술 라이브러리를 이용한 계획 방법을 제시합니다. 논리적 표현으로 지정된 목표를 달성하기 위해 작업 계획자가 이러한 기술들을 순차적으로 실행하는데, 비전-언어 모델(VLMs)을 사용하여 이러한 표현을 근거로 하지만, 완전한 관측 가능성을 가정하기 때문에 에이전트가 사실을 확실하게 평가할 수 있는 충분한 정보가 부족할 때 최적이 아닌 행동을 초래할 수 있습니다. 본 논문에서는 VLMs를 지각 모듈로 활용하여 불확실성을 추정하고 상징적 근거를 용이하게 하는 새로운 프레임워크를 제시합니다. 상징적 신념 표현을 구성하고 신념 공간 계획자를 사용하여 전략적 정보 수집을 통합하는 불확실성 인식 계획을 생성합니다. 이를 통해 에이전트는 부분 관측 가능성과 속성 불확실성에 대해 효과적으로 추론할 수 있습니다. 부분적으로 관찰 가능한 환경에서 추론이 필요한 다양한 실제 작업에 시스템을 시연하고, 시뮬레이션 평가를 통해 전략적 정보 수집을 계획하고 실행함으로써 기존 VLM 기반 엔드투엔드 계획 또는 VLM 기반 상태 추정 기준보다 성능이 우수함을 보여줍니다. 본 연구는 VLMs가 불확실성 인식 계획과 같은 다운스트림 작업을 가능하게 하는 신념 공간 상징적 장면 표현을 구성할 수 있는 잠재력을 강조합니다.

시사점, 한계점

시사점:
VLMs를 활용하여 부분 관측 가능 환경에서의 로봇 모바일 조작 문제를 효과적으로 해결할 수 있는 새로운 프레임워크 제시.
불확실성을 고려한 전략적 정보 수집 계획을 통해 작업 성공률 향상.
VLMs를 이용한 상징적 신념 표현 생성 및 신념 공간 계획의 가능성을 제시.
실제 세계 작업에서의 성능 검증을 통해 실용성 입증.
한계점:
현재 시뮬레이션 환경에서의 평가 결과만 제시, 실제 환경에서의 좀 더 광범위한 테스트 필요.
VLMs의 성능에 의존적이며, VLMs의 한계가 시스템 성능에 영향을 미칠 수 있음.
복잡한 작업에 대한 확장성 및 일반화 성능에 대한 추가적인 연구 필요.
다양한 유형의 불확실성(센서 오류, 환경 변화 등)에 대한 로버스트성 평가 필요.
👍