본 논문은 도메인별 학습 없이 사전 학습된 기반 모델을 활용하는 로봇 조작 프레임워크를 제시한다. 이 프레임워크는 다중 모드 인식을 제공하는 기반 모델과 견고한 작업 시퀀싱이 가능한 일반 목적 추론 모델을 통합한다. 동적으로 유지 관리되는 장면 그래프는 공간 인식을 제공하고 환경에 대한 일관된 추론을 가능하게 한다. 테이블탑 로봇 조작 실험을 통해 프레임워크를 평가하며, 사전 학습된 기반 모델을 직접 사용하여 로봇 조작 시스템을 구축할 수 있는 잠재력을 보여준다.