본 논문은 영상 내 인간-물체 상호작용(HOI) 동작의 시간적 위치를 파악하는 새로운 제로샷 접근 방식인 EgoLoc을 제안합니다. 기존 방법들이 주석된 상호작용의 동작 및 물체 범주에 의존하는 것과 달리, EgoLoc은 시각-언어 모델(VLM)을 활용하여 제로샷 학습을 수행합니다. 특히, 자기중심 영상에서 파지 동작의 시간을 정확하게 찾기 위해 3D 손 속도를 기반으로 자기적응적 샘플링 전략을 도입하여 VLM 추론을 위한 시각적 프롬프트를 생성합니다. 2D 및 3D 관찰 정보를 통합하고, 시각 및 동적 단서로부터 폐루프 피드백을 생성하여 위치 결과를 세밀하게 조정합니다. 공개 데이터셋과 새롭게 제안된 벤치마크를 사용한 실험 결과, EgoLoc은 최첨단 기준 모델보다 우수한 성능을 보임을 보여줍니다. 코드와 관련 데이터는 공개될 예정입니다.