본 논문은 개방형 세계 환경에서의 일반화 가능한 로봇 모바일 조작의 어려움(긴 시간 지평선, 복잡한 목표, 부분 관측 가능성)을 해결하기 위해 매개변수화된 기술 라이브러리를 이용한 계획 방법을 제시합니다. 논리적 표현으로 지정된 목표를 달성하기 위해 작업 계획자가 이러한 기술들을 순차적으로 실행하는데, 비전-언어 모델(VLMs)을 사용하여 이러한 표현을 근거로 하지만, 완전한 관측 가능성을 가정하기 때문에 에이전트가 사실을 확실하게 평가할 수 있는 충분한 정보가 부족할 때 최적이 아닌 행동을 초래할 수 있습니다. 본 논문에서는 VLMs를 지각 모듈로 활용하여 불확실성을 추정하고 상징적 근거를 용이하게 하는 새로운 프레임워크를 제시합니다. 상징적 신념 표현을 구성하고 신념 공간 계획자를 사용하여 전략적 정보 수집을 통합하는 불확실성 인식 계획을 생성합니다. 이를 통해 에이전트는 부분 관측 가능성과 속성 불확실성에 대해 효과적으로 추론할 수 있습니다. 부분적으로 관찰 가능한 환경에서 추론이 필요한 다양한 실제 작업에 시스템을 시연하고, 시뮬레이션 평가를 통해 전략적 정보 수집을 계획하고 실행함으로써 기존 VLM 기반 엔드투엔드 계획 또는 VLM 기반 상태 추정 기준보다 성능이 우수함을 보여줍니다. 본 연구는 VLMs가 불확실성 인식 계획과 같은 다운스트림 작업을 가능하게 하는 신념 공간 상징적 장면 표현을 구성할 수 있는 잠재력을 강조합니다.