MARVEL-40M+: Multi-Level Visual Elaboration for High-Fidelity Text-to-3D Content Creation
Created by
Haebom
저자
Sankalp Sinha, Mohammad Sadil Khan, Muhammad Usama, Shino Sam, Didier Stricker, Sk Aziz Ali, Muhammad Zeshan Afzal
개요
MARVEL-40M+는 7개의 주요 3D 데이터셋에서 집계된 890만 개 이상의 3D 자산에 대한 4천만 개의 텍스트 주석을 포함하는 방대한 데이터셋입니다. 오픈소스 사전 훈련된 다중 뷰 VLMs와 LLMs를 통합하는 새로운 다단계 주석 파이프라인을 사용하여 상세한 설명(150-200단어)부터 간결한 의미 태그(10-20단어)까지 다양한 수준의 설명을 자동으로 생성합니다. 소스 데이터셋의 인간 메타데이터를 통합하여 주석에 도메인별 정보를 추가하고 VLM 환각을 줄입니다. 또한, 두 단계 텍스트-3D 파이프라인인 MARVEL-FX3D를 개발하여, 주석을 사용하여 Stable Diffusion을 미세 조정하고 사전 훈련된 이미지-3D 네트워크를 사용하여 15초 이내에 3D 텍스처 메시를 생성합니다. GPT-4와 인간 평가자에 의한 승률이 각각 72.41%와 73.40%로 기존 데이터셋보다 주석 품질과 언어 다양성이 훨씬 뛰어납니다.
시사점, 한계점
•
시사점:
◦
기존 데이터셋의 크기, 다양성, 주석 깊이 제한 문제를 해결하는 대규모 3D 데이터셋 MARVEL-40M+ 제시.
◦
다중 뷰 VLMs와 LLMs를 활용한 자동화된 다단계 주석 파이프라인 개발.
◦
15초 이내 3D 모델 생성 가능한 효율적인 텍스트-3D 파이프라인 MARVEL-FX3D 개발.
◦
GPT-4 및 인간 평가자를 통한 높은 주석 품질 및 언어 다양성 검증.
◦
세분화된 3D 재구성과 빠른 프로토타이핑 모두 지원.
•
한계점:
◦
VLM 환각을 완전히 제거하지 못할 수 있음 (인간 메타데이터 활용으로 최소화 노력은 있으나 완벽하지 않을 수 있음).