Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Scaling 4D Representations

Created by
  • Haebom

저자

Joao Carreira, Dilara Gokay, Michael King, Chuhan Zhang, Ignacio Rocco, Aravindh Mahendran, Thomas Albert Keck, Joseph Heyward, Skanda Koppula, Etienne Pot, Goker Erdogan, Yana Hasson, Yi Yang, Klaus Greff, Guillaume Le Moing, Sjoerd van Steenkiste, Daniel Zoran, Drew A. Hudson, Pedro Velez, Luisa Polania, Luke Friedman, Chris Duvarney, Ross Goroshin, Kelsey Allen, Jacob Walker, Rishabh Kabra, Eric Aboussouan, Jennifer Sun, Thomas Kipf, Carl Doersch, Viorica P\u{a}tr\u{a}ucean, Dima Damen, Pauline Luc, Mehdi S. M. Sajjadi, Andrew Zisserman

개요

본 논문은 비디오 데이터를 활용한 순수 자기 지도 학습의 확장성을 비디오 기반의 공간적(3D) 및 시간적(+1D=4D) 비지도 학습 과제(카메라 자세 추정, 점 및 객체 추적, 깊이 추정 등)에 초점을 맞춰 평가합니다. 기존 연구들이 주로 의미론적 과제(액션 분류, ImageNet 분류 등)에 집중한 것과 달리, 본 연구는 대규모 비디오 데이터셋으로부터 학습된 Transformer 기반의 마스크 자동 인코딩(MAE) 모델을 사용하여, 모델 크기가 20M에서 22B 파라미터까지 증가함에 따라 4D 비전 과제의 성능이 지속적으로 향상됨을 보여줍니다. 다양한 최신 이미지 및 비디오 모델과의 비교 분석을 통해 4D 표현의 확장성 이점을 제시하며, 사전 학습된 모델은 공개 저장소에서 제공합니다.

시사점, 한계점

시사점:
대규모 비디오 데이터셋을 활용한 자기 지도 학습의 확장성을 공간-시간적(4D) 비전 과제에서 성공적으로 입증.
Transformer 기반 MAE 모델의 4D 표현 학습의 효과를 실험적으로 증명.
22B 파라미터에 달하는 대규모 자기 지도 학습 비디오 모델을 제시하고 공개.
다양한 비디오 기반 과제에서 성능 향상을 보임.
한계점:
아직 의미론적 과제에 대한 자기 지도 학습 확장성은 충분히 검증되지 않음.
제시된 모델의 계산 비용이 높을 수 있음.
특정 유형의 비디오 데이터에 대한 성능 평가에 치중되어 일반화 성능에 대한 추가 연구 필요.
👍