EgoDTM: Towards 3D-Aware Egocentric Video-Language Pretraining
Created by
Haebom
Category
Empty
저자
Boshen Xu, Yuting Mei, Xinbi Liu, Sipeng Zheng, Qin Jin
개요
본 논문은 EgoDTM(Egocentric Depth- and Text-aware Model)을 제안합니다. EgoDTM은 대규모 3D 인식 비디오 사전 학습과 비디오-텍스트 대조 학습을 통해 공동으로 학습되는 모델로, 기존의 1D 텍스트 또는 2D 시각적 단서(예: 바운딩 박스) 기반 접근 방식의 한계를 극복하기 위해 고안되었습니다. 깊이 추정 모델로 생성된 의사 깊이 맵으로부터 3D 인식을 효율적으로 학습하는 경량 3D 인식 디코더를 통합하고, 기본 모델들을 결합하여 원래의 간략한 캡션에 손-물체 시각적 단서를 추가하여 3D 인식 비디오 사전 학습을 더욱 용이하게 합니다. 다양한 하위 작업에서 우수한 성능을 보이며, 향상된 3D 인식 시각적 이해 능력을 입증합니다. 코드는 https://github.com/xuboshen/EgoDTM 에서 공개될 예정입니다.
시사점, 한계점
•
시사점:
◦
3D 인식 비디오 사전 학습을 통해 기존의 2D 기반 모델보다 향상된 3D 시각적 이해 능력을 보여줍니다.
◦
경량 3D 인식 디코더를 통해 효율적으로 3D 정보를 학습할 수 있음을 보여줍니다.
◦
다양한 하위 작업에서 우수한 성능을 달성하여 모델의 실용성을 입증합니다.
◦
손-물체 시각적 단서를 추가하여 3D 인식 비디오 사전 학습을 개선하는 새로운 방법을 제시합니다.