Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Zero-Shot Temporal Interaction Localization for Egocentric Videos

Created by
  • Haebom

저자

Erhang Zhang, Junyi Ma, Yin-Dong Zheng, Yixuan Zhou, Hesheng Wang

개요

본 논문은 영상 내 인간-물체 상호작용(HOI) 동작의 시간적 위치를 파악하는 새로운 제로샷 접근 방식인 EgoLoc을 제안합니다. 기존 방법들이 주석된 상호작용의 동작 및 물체 범주에 의존하는 것과 달리, EgoLoc은 시각-언어 모델(VLM)을 활용하여 제로샷 학습을 수행합니다. 특히, 자기중심 영상에서 파지 동작의 시간을 정확하게 찾기 위해 3D 손 속도를 기반으로 자기적응적 샘플링 전략을 도입하여 VLM 추론을 위한 시각적 프롬프트를 생성합니다. 2D 및 3D 관찰 정보를 통합하고, 시각 및 동적 단서로부터 폐루프 피드백을 생성하여 위치 결과를 세밀하게 조정합니다. 공개 데이터셋과 새롭게 제안된 벤치마크를 사용한 실험 결과, EgoLoc은 최첨단 기준 모델보다 우수한 성능을 보임을 보여줍니다. 코드와 관련 데이터는 공개될 예정입니다.

시사점, 한계점

시사점:
제로샷 학습을 통해 도메인 편향과 배포 효율 저하 문제를 해결.
3D 손 속도 기반 자기적응적 샘플링 전략으로 정확하고 효율적인 추론 가능.
2D 및 3D 정보 통합 및 폐루프 피드백을 통한 정확도 향상.
자기중심 영상에서의 시간적 상호작용 위치 파악 성능 향상.
공개된 코드와 데이터를 통해 연구 재현성 및 확장성 증대.
한계점:
현재는 파지 동작에 국한된 접근 방식. 다른 유형의 HOI 동작으로의 일반화 가능성은 추가 연구 필요.
제안된 벤치마크의 규모 및 다양성이 향후 개선될 여지가 있음.
VLM의 성능에 의존적이므로 VLM의 한계가 EgoLoc의 성능에 영향을 미칠 수 있음.
👍