Bootstrap Your Own Views: Masked Ego-Exo Modeling for Fine-grained View-invariant Video Representations
Created by
Haebom
저자
Jungin Park, Jiyoung Lee, Kwanghoon Sohn
개요
본 논문은 다양한 관점에서 비디오 이해 시스템을 일반화하기 위한 유망한 접근 방식인 자기중심적(일인칭, ego) 및 타중심적(3인칭, exo) 비디오로부터의 관점 불변 표현 학습에 대해 다룹니다. 자기중심적 관점과 타중심적 관점 간의 시각, 움직임 패턴 및 맥락의 상당한 차이로 인해 이 분야는 아직 충분히 탐구되지 않았습니다. 본 논문에서는 짝짓지 않은 자기중심적 및 타중심적 비디오로부터의 세분화된 관점 불변 비디오 표현 학습을 위해 인과적 시간 역학과 교차 관점 정렬을 모두 촉진하는 새로운 마스크 자기-타중심적 모델링인 Bootstrap Your Own Views (BYOV)를 제안합니다. 강력한 교차 관점 이해의 기반으로 인간 행동의 구성적 특성을 포착하는 것의 중요성을 강조합니다. 구체적으로, 자기 관점 마스킹 및 교차 관점 마스킹 예측은 관점 불변적이고 강력한 표현을 동시에 학습하도록 설계되었습니다. 실험 결과는 BYOV가 기존 접근 방식을 크게 능가하며 네 가지 하위 자기-타중심적 비디오 작업에서 모든 지표에 걸쳐 눈에 띄는 성능 향상을 보임을 보여줍니다. 코드는 https://github.com/park-jungin/byov 에서 확인할 수 있습니다.