GeoMan: Temporally Consistent Human Geometry Estimation using Image-to-Video Diffusion
Created by
Haebom
저자
Gwanghyun Kim, Xueting Li, Ye Yuan, Koki Nagano, Tianye Li, Jan Kautz, Se Young Chun, Umar Iqbal
개요
GeoMan은 단안 비디오로부터 정확하고 시간적으로 일관된 3D 인체 기하학을 추정하는 새로운 아키텍처입니다. 기존 방법들이 단일 이미지에 최적화되어 시간적 불일치가 발생하고 미세한 동적 세부 사항을 포착하지 못하는 문제점을 해결하기 위해 제안되었습니다. 고품질 4D 훈련 데이터 부족과 정확한 인체 크기 모델링을 위한 메트릭 깊이 추정의 필요성이라는 두 가지 주요 과제를 해결합니다. 첫 번째 과제를 극복하기 위해 이미지 기반 모델을 사용하여 비디오의 첫 번째 프레임에 대한 깊이와 노말을 추정하고, 이를 조건으로 비디오 확산 모델을 사용하여 비디오 기하 추정 작업을 이미지-비디오 생성 문제로 재구성합니다. 이 설계는 기하 추정의 어려운 부분을 이미지 모델에 맡기고 비디오 모델의 역할을 복잡한 세부 사항에 집중하도록 단순화하여 대규모 비디오 데이터셋으로부터 학습된 사전 정보를 사용합니다. 결과적으로 GeoMan은 4D 훈련 데이터를 최소화하면서 시간적 일관성과 일반화 성능을 향상시킵니다. 정확한 인체 크기 추정의 과제를 해결하기 위해 루트 상대 깊이 표현을 도입하여 중요한 인체 크기 세부 정보를 유지하고 단안 입력으로부터 더 쉽게 추정할 수 있도록 하여 기존의 affine-invariant 및 metric 깊이 표현의 한계를 극복합니다. GeoMan은 정성적 및 정량적 평가 모두에서 최첨단 성능을 달성하여 비디오로부터 3D 인체 기하 추정의 오랜 과제를 극복하는 효과를 보여줍니다.
시사점, 한계점
•
시사점:
◦
단안 비디오에서 정확하고 시간적으로 일관된 3D 인체 기하 추정을 위한 새로운 아키텍처 GeoMan 제시.
◦
고품질 4D 훈련 데이터의 부족 문제를 이미지 기반 모델과 비디오 확산 모델 결합을 통해 효과적으로 해결.
◦
루트 상대 깊이 표현을 통해 정확한 인체 크기 추정 및 단안 입력으로부터의 추정 용이성 확보.
◦
정성적 및 정량적 평가에서 최첨단 성능 달성.
•
한계점:
◦
제시된 방법의 일반화 성능에 대한 추가적인 검증 필요. 다양한 환경 및 조건에서의 성능 평가가 더 필요할 수 있음.
◦
루트 상대 깊이 표현의 한계 및 다른 표현 방식과의 비교 분석이 추가적으로 필요할 수 있음.
◦
고품질 4D 데이터가 여전히 필요하며, 데이터의 양과 질에 대한 의존성이 존재할 가능성이 있음.