Sign In

Eyes on Target: Gaze-Aware Object Detection in Egocentric Video

Created by
  • Haebom
Category
Empty

저자

Vishakha Lall, Yisi Liu

Eyes on Target: Depth-Aware and Gaze-Guided Object Detection for Egocentric Videos

개요

본 논문은 복잡한 시각 환경에서 인간의 시선이 제공하는 풍부한 감독 신호를 활용하여, 자아 시점 비디오를 위한 새로운 깊이 인식 및 시선 유도 객체 감지 프레임워크인 "Eyes on Target"을 제안한다. Vision Transformer (ViT)의 어텐션 메커니즘에 시선에서 파생된 특징을 주입하여 공간적 특징 선택을 인간이 주목하는 영역으로 효과적으로 편향시킨다. 객체 감지 성능 향상을 위해 시청자가 우선시하는 영역을 강조한다. 시뮬레이션 환경에서 인간의 시각적 주의가 중요한 역할을 하는 자아 시점 시뮬레이터 데이터셋에서 제안하는 방법을 검증하고, Ego4D Ego-Motion 및 Ego-CH-Gaze 데이터셋을 포함한 공공 벤치마크에서도 기존의 시선 무관 베이스라인보다 일관된 성능 향상을 보였다. 모델 동작 해석을 위해 시선 인식 어텐션 헤드 중요도 메트릭을 도입하여 시선 신호가 transformer 어텐션 역학에 어떻게 영향을 미치는지 밝힌다.

시사점, 한계점

시사점:
자아 시점 비디오에서 객체 감지를 위한 새로운 깊이 인식 및 시선 유도 프레임워크 제안.
시선 정보를 ViT의 어텐션 메커니즘에 통합하여 객체 감지 성능 향상.
자체 시뮬레이터 데이터셋 및 공개 벤치마크에서 기존 베이스라인 대비 향상된 성능 입증.
시선 인식 어텐션 헤드 중요도 메트릭을 통해 모델 동작 해석 가능성 제시.
한계점:
논문 내 한계점 언급 없음. (Abstract 내용만으로는 파악 불가)
👍