본 논문은 시각적 주의와 의도 추론에 대한 중요한 통찰력을 제공하는, 사람, 시선 대상, 관심 객체의 탐지를 단일 프레임워크로 통합하는 새로운 Vision-Language Model (VLM)인 GazeVLM을 소개합니다. GazeVLM은 시각 (RGB 및 깊이)과 텍스트 모달리티를 통합하여 사람 탐지, 시선 대상 탐지 및 시선 객체 식별을 수행합니다. 실험을 통해 GazeVLM은 GazeFollow 및 VideoAttentionTarget 데이터 세트에서 최첨단 성능을 달성했습니다.