사전 학습된 시각-언어-행동 (VLA) 모델은 일반적인 로봇 정책에 유망하지만, 분포 외 시나리오에서 zero-shot으로 배포될 때 불안정한 동작이나 안전하지 못한 실패를 초래하는 경우가 많습니다. 본 연구에서는 VLA 정책의 추론 절차에 모델 기반 검색을 포함시켜 로봇 작업 성능을 향상시키는 새로운 프레임워크인 Vision-Language-Action Planning & Search (VLAPS)를 제시합니다. VLAPS는 VLA 정책에 의해 정의된 행동 사전(action priors)을 사용하여 대상 환경의 모델을 사용하는 수정된 Monte Carlo Tree Search (MCTS) 알고리즘을 편향시킵니다. VLAPS는 VLA에서 파생된 추상화와 사전을 모델 기반 검색에 사용함으로써, 그렇지 않으면 다루기 어려울 정도로 큰 검색 공간을 가진 언어 기반 로봇 작업을 효율적으로 탐색합니다. 또한, 모델 기반 검색을 VLA 정책의 추론 절차와 통합하여 VLAPS는 VLA 정책의 행동 예측을 직접 따르는 것보다 더 나은 성능을 보입니다. VLAPS는 VLA 모델의 테스트 시간 계산을 제어하고, 로봇 환경에 대한 사전 지식을 활용하며, 기존의 계획 및 강화 학습 기술을 VLA 추론 과정에 통합하는 원칙적인 프레임워크를 제공합니다. 모든 실험에서 VLAPS는 VLA 단독 기반 모델보다 언어 지정 작업에서 유의미하게 뛰어난 성능을 보이며, 성공률을 최대 67%p까지 증가시켰습니다.