Sign In

MMGDreamer: Mixed-Modality Graph for Geometry-Controllable 3D Indoor Scene Generation

Created by
  • Haebom
Category
Empty

저자

Zhifei Yang, Keyang Lu, Chao Zhang, Jiaxing Qi, Hanqi Jiang, Ruifei Ma, Shenglin Yin, Yifan Xu, Mingzhe Xing, Zhen Xiao, Jieyi Long, Xiangde Liu, Guangyao Zhai

개요

MMGDreamer는 혼합 모달리티 그래프(Mixed-Modality Graph), 시각적 향상 모듈(visual enhancement module), 관계 예측기(relation predictor)를 통합한 이중 분기 확산 모델(dual-branch diffusion model)로, 제어 가능한 3D 장면 생성을 위한 새로운 방법을 제시합니다. 텍스트와 시각 정보를 통합하는 혼합 모달리티 그래프를 통해 유연한 사용자 입력에 대한 적응성을 높이고, 객체의 기하학적 형태를 정밀하게 제어할 수 있습니다. 시각적 향상 모듈은 텍스트 임베딩을 사용하여 텍스트 기반 노드의 시각적 충실도를 높이고, 관계 예측기는 노드 표현을 활용하여 누락된 노드 간 관계를 추론하여 보다 일관성 있는 장면 레이아웃을 생성합니다. 실험 결과, MMGDreamer는 기존 방법보다 우수한 객체 기하학 제어 성능과 최첨단 장면 생성 성능을 달성했습니다.

시사점, 한계점

시사점:
텍스트와 시각 정보를 모두 활용하여 유연하고 정밀한 3D 장면 생성을 가능하게 함.
객체의 기하학적 형태에 대한 세밀한 제어 기능 제공.
텍스트 기반 노드의 시각적 품질 향상.
노드 간 관계 예측을 통한 일관성 있는 장면 레이아웃 생성.
최첨단의 3D 장면 생성 성능 달성.
한계점:
논문에서는 구체적인 한계점이 언급되지 않음. 추가적인 실험이나 분석을 통해 한계점을 밝힐 필요가 있음. (예: 특정 유형의 장면 생성에 대한 성능 저하, 계산 비용, 확장성 등)
👍