Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

EgoDTM: Towards 3D-Aware Egocentric Video-Language Pretraining

Created by
  • Haebom
Category
Empty

저자

Boshen Xu, Yuting Mei, Xinbi Liu, Sipeng Zheng, Qin Jin

개요

본 논문은 EgoDTM(Egocentric Depth- and Text-aware Model)을 제안합니다. EgoDTM은 대규모 3D 인식 비디오 사전 학습과 비디오-텍스트 대조 학습을 통해 공동으로 학습되는 모델로, 기존의 1D 텍스트 또는 2D 시각적 단서(예: 바운딩 박스) 기반 접근 방식의 한계를 극복하기 위해 고안되었습니다. 깊이 추정 모델로 생성된 의사 깊이 맵으로부터 3D 인식을 효율적으로 학습하는 경량 3D 인식 디코더를 통합하고, 기본 모델들을 결합하여 원래의 간략한 캡션에 손-물체 시각적 단서를 추가하여 3D 인식 비디오 사전 학습을 더욱 용이하게 합니다. 다양한 하위 작업에서 우수한 성능을 보이며, 향상된 3D 인식 시각적 이해 능력을 입증합니다. 코드는 https://github.com/xuboshen/EgoDTM 에서 공개될 예정입니다.

시사점, 한계점

시사점:
3D 인식 비디오 사전 학습을 통해 기존의 2D 기반 모델보다 향상된 3D 시각적 이해 능력을 보여줍니다.
경량 3D 인식 디코더를 통해 효율적으로 3D 정보를 학습할 수 있음을 보여줍니다.
다양한 하위 작업에서 우수한 성능을 달성하여 모델의 실용성을 입증합니다.
손-물체 시각적 단서를 추가하여 3D 인식 비디오 사전 학습을 개선하는 새로운 방법을 제시합니다.
한계점:
의사 깊이 맵의 정확도에 따라 모델 성능이 영향을 받을 수 있습니다.
사용된 기본 모델들의 성능에 의존적인 측면이 있습니다.
대규모 데이터셋이 필요하며, 데이터셋의 품질에 따라 성능이 달라질 수 있습니다.
현재까지 공개되지 않은 코드의 구현 세부 사항에 대한 검증이 필요합니다.
👍