본 논문은 가정용 로봇이 다양한 가전제품을 작동할 수 있도록 하는 시스템인 ApBot을 제시합니다. ApBot은 사용 설명서를 "읽어" 가전제품을 작동하는데, 사용 설명서의 비정형 텍스트 설명으로부터 목표 조건 부분 정책을 추론하고, 이를 물리적 세계의 가전제품에 적용하며, 누적 오류에도 불구하고 여러 단계에 걸쳐 정책을 안정적으로 실행하는 과제에 직면합니다. 이러한 과제를 해결하기 위해 ApBot은 대규모 비전-언어 모델(VLM)을 사용하여 사용 설명서에서 가전제품의 구조화된 상징적 모델을 구성하고, 상징적 행동을 시각적으로 제어판 요소에 적용합니다. 마지막으로 시각적 피드백을 기반으로 모델을 업데이트하여 루프를 닫습니다. 실험 결과, ApBot은 다양한 시뮬레이션 및 실제 가전제품에서 최첨단 대규모 VLM을 직접 제어 정책으로 사용하는 것보다 작업 성공률이 일관되고 통계적으로 유의미하게 향상됨을 보여줍니다. 이러한 결과는 특히 복잡한 가정용 가전제품의 로봇 작동에 구조화된 내부 표현이 중요한 역할을 한다는 것을 시사합니다.