본 논문은 인간의 능동적 시각 처리 방식을 로봇 시스템에 적용하여 효율성과 성능을 향상시키는 방법을 탐구한다. 인간의 시선 추적과 머리 움직임을 모방하는 능동 시각(Active Vision) 로봇 시스템을 구축하고, 인간 운영자로부터 시선 추적 데이터와 로봇 데모를 동시에 수집하는 프레임워크를 제시한다. 시선 정보를 Vision Transformer (ViT)에 통합하기 위해, 관심 영역에 대한 시각적 충실도를 유지하면서 토큰 수를 크게 줄이는 능동 시각 기반 패치 토큰화 기법을 사용한다. 인간 데이터로부터 시선 모방 및 예측을 위한 두 가지 접근 방식(시선 예측 후 능동 시각 적용 방식과 시선 및 행동을 종단 간으로 예측하는 방식)을 탐색하고, 제안된 방법이 계산 오버헤드를 크게 줄이고 고정밀 작업의 성능과 미지의 방해 요소에 대한 강건성을 향상시킨다는 것을 실험적으로 보여준다.