본 논문은 가정용 로봇이 다양한 가전제품을 작동하는 능력을 향상시키기 위한 시스템인 ApBot을 제시합니다. ApBot은 사용 설명서를 "읽어" 새로운 가전제품을 작동하는 로봇 시스템입니다. 사용 설명서의 비정형 텍스트 설명으로부터 목표 조건 부분 정책을 추론하고, 이를 물리적 세계의 기기에 적용하며, 누적 오류에도 불구하고 여러 단계에 걸쳐 정책을 안정적으로 실행하는 과제에 직면합니다. 이러한 과제를 해결하기 위해 ApBot은 대규모 비전-언어 모델(VLM)을 활용하여 사용 설명서에서 기기의 구조화된 상징적 모델을 구성하고, 시각적으로 상징적 행동을 제어판 요소에 적용합니다. 마지막으로 시각적 피드백을 기반으로 모델을 업데이트하여 루프를 닫습니다. 실험 결과, 다양한 시뮬레이션 및 실제 기기에 걸쳐 ApBot은 제어 정책으로 직접 사용되는 최첨단 대규모 VLM과 비교하여 작업 성공률에서 일관되고 통계적으로 유의미한 향상을 달성했습니다. 이러한 결과는 특히 복잡한 가정용 기기의 로봇 작동에 있어 구조화된 내부 표현이 중요한 역할을 한다는 것을 시사합니다.