본 논문은 복잡한 시각 환경에서 인간의 시선이 제공하는 풍부한 감독 신호를 활용하여, 자아 시점 비디오를 위한 새로운 깊이 인식 및 시선 유도 객체 감지 프레임워크인 "Eyes on Target"을 제안한다. Vision Transformer (ViT)의 어텐션 메커니즘에 시선에서 파생된 특징을 주입하여 공간적 특징 선택을 인간이 주목하는 영역으로 효과적으로 편향시킨다. 객체 감지 성능 향상을 위해 시청자가 우선시하는 영역을 강조한다. 시뮬레이션 환경에서 인간의 시각적 주의가 중요한 역할을 하는 자아 시점 시뮬레이터 데이터셋에서 제안하는 방법을 검증하고, Ego4D Ego-Motion 및 Ego-CH-Gaze 데이터셋을 포함한 공공 벤치마크에서도 기존의 시선 무관 베이스라인보다 일관된 성능 향상을 보였다. 모델 동작 해석을 위해 시선 인식 어텐션 헤드 중요도 메트릭을 도입하여 시선 신호가 transformer 어텐션 역학에 어떻게 영향을 미치는지 밝힌다.