본 논문은 인간의 시각 처리 방식을 모방하여 로봇 비전 시스템의 효율성과 강건성을 향상시키는 방법을 제시합니다. 인간의 시선 이동과 집중(foveation)을 모방한 GIAVA (Gaze Integrated Active-Vision ALOHA) 시스템을 개발하여, 로봇의 머리와 목의 움직임, 시선 조절을 통해 망막 중심부 처리(foveated processing)를 구현합니다. 인간 조작자의 시선 추적, 관점 제어, 로봇 조작 데모 데이터를 동시에 수집하는 프레임워크를 소개하고, 시뮬레이션 벤치마크와 데이터셋을 공개합니다. 또한, 시선 정보를 Vision Transformers (ViTs)에 통합하는 foveated patch tokenization 기법을 제시하여 계산량을 줄이고, 배경의 방해 요소에 대한 강건성을 높입니다. 실험 결과, 제안된 방법이 계산 비용을 크게 줄이고, 특정 정밀 작업에서는 성능까지 향상시키는 것을 보여줍니다.