Este artículo presenta ApBot, un sistema para mejorar la capacidad de los robots domésticos para operar diversos electrodomésticos. ApBot es un sistema robótico que opera un nuevo electrodoméstico leyendo el manual de usuario. Su tarea consiste en inferir una subpolítica condicional objetivo a partir de la descripción textual no estructurada del manual, aplicarla al dispositivo físico y ejecutarla de forma fiable en múltiples pasos a pesar de la acumulación de errores. Para abordar este reto, ApBot utiliza un modelo de visión-lenguaje (VLM) a gran escala para construir un modelo simbólico estructurado del dispositivo a partir del manual de usuario y aplica visualmente acciones simbólicas a los elementos del panel de control. Finalmente, cierra el ciclo actualizando el modelo con base en la retroalimentación visual. Los resultados experimentales muestran que, en diversos dispositivos simulados y reales, ApBot logra mejoras consistentes y estadísticamente significativas en las tasas de éxito de las tareas, en comparación con los VLM a gran escala de última generación que se utilizan directamente como políticas de control. Estos resultados sugieren que las representaciones internas estructuradas desempeñan un papel importante, en particular, en la operación robótica de electrodomésticos complejos.