Sign In

HOT3D: Hand and Object Tracking in 3D from Egocentric Multi-View Videos

Created by
  • Haebom
Category
Empty

저자

Prithviraj Banerjee, Sindi Shkodrani, Pierre Moulon, Shreyas Hampali, Shangchen Han, Fan Zhang, Linguang Zhang, Jade Fountain, Edward Miller, Selen Basol, Richard Newcombe, Robert Wang, Jakob Julian Engel, Tomas Hodan

개요

HOT3D는 공개적으로 이용 가능한 3D 시점 손과 물체 추적 데이터셋입니다. 19명의 피험자가 33개의 다양한 강체 물체와 상호 작용하는 833분 이상 (370만 장 이상의 이미지)의 녹화 영상을 제공합니다. 단순한 집어 들기, 관찰, 내려놓기 동작 외에도 부엌, 사무실, 거실 환경에서 일반적인 동작을 수행합니다. 녹화에는 시점 다중 뷰 RGB/단색 이미지, 시선 신호, 장면 점 구름, 카메라, 손, 물체의 3D 자세를 포함한 여러 개의 동기화된 데이터 스트림이 포함됩니다. Meta의 두 가지 헤드셋(AI 안경 연구 프로토타입인 Project Aria와 수백만 대가 출하된 VR 헤드셋인 Quest 3)을 사용하여 녹화되었습니다. 손과 물체에 부착된 작은 광학 마커를 사용하는 모션 캡처 시스템으로 정답 자세를 얻었습니다. 손 주석은 UmeTrack 및 MANO 형식으로 제공되며, 물체는 자체 개발 스캐너로 얻은 PBR 재질의 3D 메시로 표현됩니다. 실험을 통해 다중 뷰 시점 데이터의 효과를 3D 손 추적, 모델 기반 6DoF 물체 자세 추정, 알 수 없는 손 안 물체의 3D 리프팅 등 세 가지 일반적인 작업에 대해 보여줍니다. HOT3D를 통해 독점적으로 가능해진 벤치마킹을 거친 다중 뷰 방법은 단일 뷰 방법보다 성능이 훨씬 뛰어납니다.

시사점, 한계점

시사점:
다중 뷰 시점 데이터를 활용한 3D 손 추적, 모델 기반 6DoF 물체 자세 추정, 알 수 없는 손 안 물체의 3D 리프팅 작업에서 성능 향상을 보여줌.
다양한 환경(부엌, 사무실, 거실)과 다양한 동작을 포함하는 풍부한 데이터셋 제공.
여러 센서 데이터(RGB/단색 이미지, 시선 신호, 점 구름, 3D 자세) 통합.
공개적으로 이용 가능하여 연구 및 개발에 활용 가능.
한계점:
데이터셋의 규모가 제한적일 수 있음 (비록 833분 이상의 녹화 영상이지만, 더욱 다양한 상황과 물체를 포함한 확장의 여지가 있음).
특정 헤드셋(Project Aria, Quest 3)을 사용하여 녹화되었으므로, 다른 장비에서의 일반화 성능은 추가적인 연구가 필요함.
모션 캡처 시스템을 이용한 정답 자세 획득으로 인해, 시스템 오류에 따른 정확도 저하 가능성 존재.
👍