본 논문은 Dynamic NeRF 및 4D Gaussian Splatting(4DGS)과 같은 4D 표현의 발전에 따라 동적 4D 장면 재구성이 가능해졌지만, 텍스트 기반 4D 장면 편집은 아직 충분히 연구되지 않았다는 점에 착안하여, 텍스트 기반 4D 편집을 위한 훈련 없는 프레임워크인 Dynamic-eDiTor를 제안한다. Multimodal Diffusion Transformer (MM-DiT)와 4DGS를 활용하며, Spatio-Temporal Sub-Grid Attention (STGA)을 통한 지역적 일관성 확보, Context Token Propagation (CTP)을 통한 전역적 일관성 유지를 통해, 추가적인 훈련 없이 기존 4DGS를 직접 최적화하여 매끄럽고 전역적으로 일관된 멀티뷰 비디오 편집을 수행한다. DyNeRF 멀티뷰 비디오 데이터셋을 이용한 실험을 통해 기존 방식보다 우수한 편집 충실도와 멀티뷰 및 시간적 일관성을 달성했음을 입증한다.