Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Dynamic-eDiTor: Training-Free Text-Driven 4D Scene Editing with Multimodal Diffusion Transformer

Created by
  • Haebom
Category
Empty

저자

Dong In Lee, Hyungjun Doh, Seunggeun Chi, Runlin Duan, Sangpil Kim, Karthik Ramani

개요

본 논문은 Dynamic NeRF 및 4D Gaussian Splatting(4DGS)과 같은 4D 표현의 발전에 따라 동적 4D 장면 재구성이 가능해졌지만, 텍스트 기반 4D 장면 편집은 아직 충분히 연구되지 않았다는 점에 착안하여, 텍스트 기반 4D 편집을 위한 훈련 없는 프레임워크인 Dynamic-eDiTor를 제안한다. Multimodal Diffusion Transformer (MM-DiT)와 4DGS를 활용하며, Spatio-Temporal Sub-Grid Attention (STGA)을 통한 지역적 일관성 확보, Context Token Propagation (CTP)을 통한 전역적 일관성 유지를 통해, 추가적인 훈련 없이 기존 4DGS를 직접 최적화하여 매끄럽고 전역적으로 일관된 멀티뷰 비디오 편집을 수행한다. DyNeRF 멀티뷰 비디오 데이터셋을 이용한 실험을 통해 기존 방식보다 우수한 편집 충실도와 멀티뷰 및 시간적 일관성을 달성했음을 입증한다.

시사점, 한계점

시사점:
훈련 없는 텍스트 기반 4D 편집 프레임워크 제안.
Spatio-Temporal Sub-Grid Attention (STGA)과 Context Token Propagation (CTP)을 활용하여 멀티뷰 및 시간적 일관성 확보.
기존 4DGS 모델을 직접 최적화하여 편집 수행.
DyNeRF 데이터셋에서 기존 방식 대비 우수한 성능 입증.
한계점:
구체적인 한계점은 논문에 명시되지 않음 (논문 요약 정보만 제공됨).
추후 연구를 통해 밝혀질 수 있음.
👍