Este artículo explora cómo aplicar el procesamiento de visión activa humana a sistemas robóticos para mejorar la eficiencia y el rendimiento. Presentamos un marco para construir un sistema robótico de visión activa que imita el seguimiento de la mirada y los movimientos de la cabeza humanos, y que recopila simultáneamente datos de seguimiento de la mirada y demostraciones del robot realizadas por operadores humanos. Para integrar la información de la mirada en el Transformador de Visión (ViT), utilizamos una técnica de tokenización de parches basada en visión activa que reduce significativamente el número de tokens, manteniendo al mismo tiempo la fidelidad visual en la región de interés. Exploramos dos enfoques para la imitación y predicción de la mirada a partir de datos humanos: predicción de la mirada seguida de visión activa, y predicción integral de la mirada y las acciones. Demostramos experimentalmente que el método propuesto reduce significativamente la sobrecarga computacional y mejora el rendimiento de tareas de alta precisión y la robustez frente a perturbaciones desconocidas.