Bài báo này trình bày ApBot, một hệ thống giúp cải thiện khả năng vận hành nhiều loại thiết bị gia dụng của robot gia dụng. ApBot là một hệ thống robot vận hành thiết bị gia dụng mới bằng cách "đọc" hướng dẫn sử dụng. Nó phải đối mặt với nhiệm vụ suy ra một chính sách phụ có điều kiện mục tiêu từ mô tả văn bản phi cấu trúc của hướng dẫn sử dụng, áp dụng nó vào thiết bị vật lý và thực thi chính sách một cách đáng tin cậy qua nhiều bước bất chấp các lỗi tích lũy. Để giải quyết thách thức này, ApBot sử dụng mô hình ngôn ngữ thị giác quy mô lớn (VLM) để xây dựng một mô hình biểu tượng có cấu trúc của thiết bị từ hướng dẫn sử dụng và áp dụng trực quan các hành động biểu tượng vào các thành phần bảng điều khiển. Cuối cùng, nó khép kín vòng lặp bằng cách cập nhật mô hình dựa trên phản hồi trực quan. Kết quả thử nghiệm cho thấy trên nhiều thiết bị mô phỏng và thực tế, ApBot đạt được những cải tiến nhất quán và có ý nghĩa thống kê về tỷ lệ thành công của nhiệm vụ so với các VLM quy mô lớn hiện đại được sử dụng trực tiếp làm chính sách điều khiển. Những kết quả này cho thấy các biểu diễn nội bộ có cấu trúc đóng một vai trò quan trọng trong việc vận hành robot của các thiết bị gia dụng phức tạp nói riêng.