La navegación visual, que utiliza una sola cámara y un mapa topológico, se ha convertido en una alternativa atractiva a los métodos que requieren sensores adicionales y mapas 3D. Esto se logra típicamente mediante un enfoque "relativo a la imagen", que estima el control a partir de pares de imágenes de observación actuales e imágenes de subobjetivos. Sin embargo, dado que las imágenes están estrictamente vinculadas a la pose e implementación del agente, las representaciones del mundo a nivel de imagen son limitadas. Por el contrario, los objetos son propiedades del mapa, lo que proporciona una representación del mundo independiente de la implementación y la trayectoria. En este estudio, presentamos un nuevo paradigma para el aprendizaje de control "relativo a objetos" que presenta varias propiedades deseables: a) permite explorar nuevas rutas sin imitar estrictamente la experiencia previa; b) permite separar el problema de predicción del control del problema de coincidencia de imágenes; y c) permite alcanzar un alto grado de invariancia en las configuraciones de entrenamiento-prueba y mapeo-ejecución. Proponemos una representación de mapa topológico en forma de grafo de escena 3D "relativo" para obtener costos de planificación de rutas globales a nivel de objeto más informativos. Entrenamos un controlador local llamado "ObjectReact", condicionado a una representación "WayObject Costmap" de alto nivel que no requiere entrada RGB explícita. Demostramos la ventaja del aprendizaje de control relativo a objetos sobre el control relativo a imágenes en diversas tareas de navegación que desafían las variaciones de altura del sensor y la comprensión espacial básica (por ejemplo, la exploración de trayectorias de mapas en dirección opuesta). También demostramos que la política de solo simulación se generaliza correctamente a entornos interiores reales.