본 논문은 Vecset Diffusion Model (VDM) 기반의 3D 형태 생성 속도를 향상시키는 FlashVDM 프레임워크를 제안합니다. 기존 VDM의 고해상도 3D 형태 생성에서의 느린 속도 문제를 해결하기 위해, VAE 디코딩 및 DiT(Diffusion Model) 샘플링 과정 모두를 가속화하는 방법을 제시합니다. DiT의 경우, Progressive Flow Distillation 기법을 통해 5단계의 추론만으로도 고품질의 결과를 얻을 수 있도록 하였고, VAE의 경우 Adaptive KV Selection, Hierarchical Volume Decoding, Efficient Network Design을 활용한 'lightning vecset decoder'를 설계하여 연산량을 획기적으로 줄였습니다. Hunyuan3D-2에 FlashVDM을 적용하여 Hunyuan3D-2 Turbo를 개발하였으며, 실험 결과 기존의 빠른 3D 생성 방법들을 능가하는 성능을 보이며, 최첨단 모델과 비슷한 성능을 45배 이상 빠른 재구성 속도와 32배 이상 빠른 생성 속도로 달성했습니다. 코드와 모델은 깃허브에 공개되어 있습니다.
시사점, 한계점
•
시사점:
◦
VDM 기반 3D 형태 생성 속도를 획기적으로 향상시키는 기술을 제시합니다.
◦
Progressive Flow Distillation과 lightning vecset decoder는 향후 다른 3D 생성 모델에도 적용 가능한 일반적인 기술입니다.
◦
고해상도 3D 모델 생성의 실시간 응용 가능성을 높였습니다.
•
한계점:
◦
FlashVDM은 특정 VDM (Hunyuan3D-2)에 최적화되어 있으므로, 다른 VDM에 적용하기 위한 추가적인 연구가 필요할 수 있습니다.
◦
Progressive Flow Distillation 및 lightning vecset decoder의 성능 향상에 대한 이론적 분석이 부족합니다.