Pandora3D: A Comprehensive Framework for High-Quality 3D Shape and Texture Generation
작성자
Haebom
카테고리
비어 있음
저자
Jiayu Yang, Taizhang Shang, Weixuan Sun, Xibin Song, Ziang Cheng, Senbo Wang, Shenzhou Chen, Weizhe Liu, Hongdong Li, Pan Ji
개요
본 논문은 다양한 입력 프롬프트(단일 이미지, 다중 뷰 이미지, 텍스트 설명)로부터 고품질 3D 형태 및 질감을 생성하는 포괄적인 프레임워크를 제시합니다. 이 프레임워크는 3D 형태 생성과 질감 생성으로 구성됩니다. 3D 형태 생성 파이프라인은 VAE(Variational Autoencoder)를 사용하여 암시적 3D 기하학을 잠재 공간으로 인코딩하고, 입력 프롬프트를 조건으로 하는 확산 네트워크를 사용하여 잠재 변수를 생성하며, 모델 용량을 향상시키기 위한 수정 사항이 포함됩니다. 또한, 간단한 기하학에 대해 유망한 결과를 제공하는 대체 AM(Artist-Created Mesh) 생성 방식도 탐구합니다. 질감 생성은 전면 이미지 생성, 다중 뷰 이미지 생성, RGB-to-PBR 질감 변환, 고해상도 다중 뷰 질감 개선으로 구성된 다단계 프로세스를 포함합니다. 각 단계에는 일관성 스케줄러가 적용되어 추론 중 다중 뷰 질감 간의 픽셀 단위 일관성을 강화하여 매끄러운 통합을 보장합니다. 이 파이프라인은 고급 신경망 아키텍처와 새로운 방법론을 활용하여 고품질 3D 콘텐츠를 생성하는 다양한 입력 형식을 효과적으로 처리합니다. 본 논문은 시스템 아키텍처, 실험 결과 및 프레임워크를 개선하고 확장하기 위한 잠재적인 미래 방향에 대해 자세히 설명합니다. 소스 코드와 사전 훈련된 가중치는 https://github.com/Tencent/Tencent-XR-3DGen 에서 공개됩니다.