Distilling Multi-view Diffusion Models into 3D Generators
Created by
Haebom
저자
Hao Qin, Luyuan Chen, Ming Kong, Mengxu Lu, Qiang Zhu
개요
DD3G는 다중 뷰 확산 모델(MV-DM)을 가우시안 스플래팅을 사용하여 3D 생성 모델로 증류하는 새로운 방법입니다. MV-DM의 상미분 방정식(ODE) 궤적을 시뮬레이션하여 MV-DM의 광범위한 시각 및 공간 기하학적 지식을 압축하고 통합함으로써, 3D 데이터로만 학습된 생성 모델보다 일반화 성능이 우수합니다. 기존의 비용 최적화 방식과 달리, MV-DM과 3D 생성 모델의 표현 공간을 정렬하여 teacher 모델의 확률적 흐름을 student 모델로 전달하여 확률적 샘플링으로 인한 최적화 목표의 불일치를 방지합니다. 확률적 흐름의 도입과 3D 가우시안에서 다양한 속성의 결합은 생성 과정에 어려움을 야기합니다. 이를 해결하기 위해 패턴 추출 및 점진적 디코딩 단계로 구성된 PEPD라는 생성 모델을 제안하여 확률적 흐름의 효율적인 융합을 가능하게 하고 단일 이미지를 0.06초 이내에 3D 가우시안으로 변환합니다. 또한, 지식 손실을 줄이고 희소 뷰 감독을 극복하기 위해 명시적 감독과 암시적 검증을 통해 생성된 샘플의 품질을 보장하는 공동 최적화 목표를 설계했습니다. 기존의 2D 생성 모델을 활용하여 120,000개의 고품질 RGBA 이미지를 증류에 사용했습니다. 합성 및 공개 데이터셋에 대한 실험을 통해 제안 방법의 효과를 보였습니다. 프로젝트는 https://qinbaigao.github.io/DD3G_project/ 에서 확인할 수 있습니다.