Robix es un modelo integrado que integra razonamiento robótico, planificación de tareas e interacción con lenguaje natural en una única arquitectura de visión y lenguaje. Al actuar como una capa cognitiva de alto nivel en un sistema robótico jerárquico, Robix genera dinámicamente comandos atómicos para controladores de bajo nivel y respuestas verbales para la interacción humana, lo que permite a los robots seguir instrucciones complejas, planificar tareas a largo plazo e interactuar de forma natural con los humanos en un marco integral. Robix introduce nuevas capacidades como la conversación proactiva durante la ejecución de tareas, la gestión de interrupciones en tiempo real y el razonamiento de sentido común contextual. En esencia, Robix aprovecha el razonamiento en cadena de pensamiento y emplea una estrategia de entrenamiento de tres etapas: (1) preentrenamiento continuo para mejorar las habilidades básicas de razonamiento de implementación, incluyendo la comprensión espacial 3D, el razonamiento visual y el razonamiento orientado a tareas; (2) ajuste supervisado para modelar la interacción humano-robot y la planificación de tareas como secuencias integradas de razonamiento-acción; y (3) aprendizaje por refuerzo para mejorar la coherencia entre razonamiento y acción, así como la coherencia de las tareas a largo plazo. Experimentos exhaustivos muestran que Robix supera los puntos de referencia comerciales y de código abierto (por ejemplo, GPT-4o y Gemini 2.5 Pro) en la ejecución de tareas interactivas, lo que demuestra una fuerte generalización en una variedad de tipos de instrucciones (por ejemplo, abiertas, de varios pasos, restringidas, nulas e interrumpidas) y en una variedad de tareas relacionadas con el usuario, como limpiar la mesa, hacer las compras y filtrar la dieta.