Dreamweaver는 원시 비디오에서 계층적이고 구성적인 표현을 학습하고 구성적인 미래 시뮬레이션을 생성하도록 설계된 신경망 아키텍처입니다. Recurrent Block-Slot Unit (RBSU)을 활용하여 비디오를 구성 객체와 속성으로 분해하고, 다중 미래 프레임 예측 목표를 사용하여 동적 및 정적 개념에 대한 분리된 표현을 효과적으로 포착합니다. 텍스트, 마스크 또는 바운딩 박스와 같은 보조 데이터에 의존하지 않고, 익숙한 개념을 재결합하여 새로운 미래를 상상하는 인간의 능력을 모방합니다. 다양한 데이터셋에서 DCI 프레임워크를 사용하여 평가한 결과, 기존 최첨단 기법을 능가하는 성능을 보였으며, 모듈화된 개념 표현을 통해 기존 객체의 속성을 재결합하여 새로운 비디오를 생성하는 구성적인 상상력을 보여줍니다.