Diffusion Transformer (DiT) 기반의 비디오 생성 모델은 시각적 품질과 시간적 일관성을 개선했지만, 물리 법칙 및 일반 상식적인 역학을 위반하는 경우가 많아 명시적인 세계 지식의 부족을 드러낸다. 본 연구에서는 DiT 모델에 유용한 세계 지식을 주입하는 플러그 앤 플레이 메모리를 장착하는 방법을 탐구한다. Transformer 기반 LLM의 in-context memory를 기반으로 DiT의 은닉 상태를 조작할 수 있으며, 임베딩 공간의 단순한 저역 통과 및 고역 통과 필터가 저수준 외관과 고수준 물리/의미적 단서를 자연스럽게 분리하여 목표 지침을 가능하게 함을 실험적으로 확인했다. 이러한 관찰을 바탕으로, 3D CNN, 저/고역 통과 필터 및 self-attention 레이어로 구성된 학습 가능한 메모리 인코더 DiT-Mem을 제안한다. 이 인코더는 참조 비디오를 압축된 메모리 토큰 집합으로 매핑하며, 이는 DiT self-attention 레이어 내에서 메모리로 연결된다. 훈련 중에는 확산 백본을 고정하고 메모리 인코더만 최적화한다. 이는 소수의 훈련 매개변수와 적은 수의 데이터 샘플(10,000개)로 효율적인 훈련 프로세스를 제공하며, 추론 시 플러그 앤 플레이 사용을 가능하게 한다. 최첨단 모델에 대한 광범위한 실험을 통해 물리 법칙 준수 및 비디오 충실도를 향상시키는 효과를 입증했다.