Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MARVEL-40M+: Multi-Level Visual Elaboration for High-Fidelity Text-to-3D Content Creation

Created by
  • Haebom

저자

Sankalp Sinha, Mohammad Sadil Khan, Muhammad Usama, Shino Sam, Didier Stricker, Sk Aziz Ali, Muhammad Zeshan Afzal

개요

MARVEL-40M+는 7개의 주요 3D 데이터셋에서 집계된 890만 개 이상의 3D 자산에 대한 4천만 개의 텍스트 주석을 포함하는 방대한 데이터셋입니다. 오픈소스 사전 훈련된 다중 뷰 VLMs와 LLMs를 통합하는 새로운 다단계 주석 파이프라인을 사용하여 상세한 설명(150-200단어)부터 간결한 의미 태그(10-20단어)까지 다양한 수준의 설명을 자동으로 생성합니다. 소스 데이터셋의 인간 메타데이터를 통합하여 주석에 도메인별 정보를 추가하고 VLM 환각을 줄입니다. 또한, 두 단계 텍스트-3D 파이프라인인 MARVEL-FX3D를 개발하여, 주석을 사용하여 Stable Diffusion을 미세 조정하고 사전 훈련된 이미지-3D 네트워크를 사용하여 15초 이내에 3D 텍스처 메시를 생성합니다. GPT-4와 인간 평가자에 의한 승률이 각각 72.41%와 73.40%로 기존 데이터셋보다 주석 품질과 언어 다양성이 훨씬 뛰어납니다.

시사점, 한계점

시사점:
기존 데이터셋의 크기, 다양성, 주석 깊이 제한 문제를 해결하는 대규모 3D 데이터셋 MARVEL-40M+ 제시.
다중 뷰 VLMs와 LLMs를 활용한 자동화된 다단계 주석 파이프라인 개발.
15초 이내 3D 모델 생성 가능한 효율적인 텍스트-3D 파이프라인 MARVEL-FX3D 개발.
GPT-4 및 인간 평가자를 통한 높은 주석 품질 및 언어 다양성 검증.
세분화된 3D 재구성과 빠른 프로토타이핑 모두 지원.
한계점:
VLM 환각을 완전히 제거하지 못할 수 있음 (인간 메타데이터 활용으로 최소화 노력은 있으나 완벽하지 않을 수 있음).
데이터셋의 균형 및 편향성에 대한 구체적인 분석 부족.
MARVEL-FX3D의 성능 한계 및 개선 여지에 대한 추가적인 분석 필요.
생성된 3D 모델의 질적 평가 기준 및 측정 방법에 대한 더 자세한 설명 필요.
👍