Sign In

Pandora3D: A Comprehensive Framework for High-Quality 3D Shape and Texture Generation

Created by
  • Haebom
Category
Empty

저자

Jiayu Yang, Taizhang Shang, Weixuan Sun, Xibin Song, Ziang Cheng, Senbo Wang, Shenzhou Chen, Weizhe Liu, Hongdong Li, Pan Ji

개요

본 논문은 다양한 입력 프롬프트(단일 이미지, 다중 뷰 이미지, 텍스트 설명)로부터 고품질 3D 형태 및 질감을 생성하는 포괄적인 프레임워크를 제시합니다. 이 프레임워크는 3D 형태 생성과 질감 생성으로 구성됩니다. 3D 형태 생성 파이프라인은 VAE(Variational Autoencoder)를 사용하여 암시적 3D 기하학을 잠재 공간으로 인코딩하고, 입력 프롬프트를 조건으로 하는 확산 네트워크를 사용하여 잠재 변수를 생성하며, 모델 용량을 향상시키기 위한 수정 사항이 포함됩니다. 또한, 간단한 기하학에 대해 유망한 결과를 제공하는 대체 AM(Artist-Created Mesh) 생성 방식도 탐구합니다. 질감 생성은 전면 이미지 생성, 다중 뷰 이미지 생성, RGB-to-PBR 질감 변환, 고해상도 다중 뷰 질감 개선으로 구성된 다단계 프로세스를 포함합니다. 각 단계에는 일관성 스케줄러가 적용되어 추론 중 다중 뷰 질감 간의 픽셀 단위 일관성을 강화하여 매끄러운 통합을 보장합니다. 이 파이프라인은 고급 신경망 아키텍처와 새로운 방법론을 활용하여 고품질 3D 콘텐츠를 생성하는 다양한 입력 형식을 효과적으로 처리합니다. 본 논문은 시스템 아키텍처, 실험 결과 및 프레임워크를 개선하고 확장하기 위한 잠재적인 미래 방향에 대해 자세히 설명합니다. 소스 코드와 사전 훈련된 가중치는 https://github.com/Tencent/Tencent-XR-3DGen 에서 공개됩니다.

시사점, 한계점

시사점:
다양한 입력(이미지, 텍스트)으로부터 고품질 3D 모델 및 텍스쳐 생성 가능
VAE와 확산 네트워크를 결합한 효과적인 3D 형태 생성 파이프라인 제시
다중 뷰 일관성을 위한 스케줄러를 통한 고품질 텍스쳐 생성
간단한 기하학에 대한 AM 생성 방식의 효용성 확인
소스 코드 및 사전 훈련된 가중치 공개를 통한 연구의 재현성 및 확장성 확보
한계점:
AM 생성 방식의 복잡한 기하학에 대한 적용성 및 성능 제한
다양한 입력에 대한 일반화 성능에 대한 추가적인 평가 필요
생성된 3D 모델의 정확도 및 디테일 향상에 대한 추가적인 연구 필요
특정 유형의 입력에 대한 편향성 존재 가능성
👍