Este artículo aborda una importante línea de investigación y aplicación de la robótica: la operación de robots en entornos abiertos que realizan diversas tareas. Los recientes avances en el procesamiento del lenguaje natural y los modelos multimodales a gran escala han mejorado la capacidad de los robots para comprender instrucciones complejas, pero la manipulación robótica aún enfrenta el dilema de las habilidades procedimentales y declarativas en entornos abiertos. Los métodos existentes a menudo requieren compromisos entre las capacidades cognitivas y ejecutivas. Para abordar estos problemas, en este artículo proponemos RoBridge, una arquitectura inteligente jerárquica para la manipulación general de robots. RoBridge consiste en un planificador cognitivo de alto nivel (HCP) basado en un gran modelo de visión-lenguaje (VLM) preentrenado, una representación operable invariante (IOR) como puente simbólico y un agente de implementación generalizado (GEA). RoBridge efectivamente cierra la brecha entre la cognición y la ejecución al preservar la habilidad declarativa de VLM y aprovechar la habilidad procedimental del aprendizaje de refuerzo. RoBridge demuestra mejoras significativas en el rendimiento con respecto a los modelos base existentes, alcanzando una tasa de éxito del 75 % en nuevas tareas y un promedio del 83 % en la generalización de simulación a realidad utilizando solo 5 muestras de datos reales por tarea. Este estudio representa un paso importante hacia la integración del razonamiento cognitivo y la ejecución física en sistemas robóticos, y presenta un nuevo paradigma para la manipulación robótica general.