Diffusion Transformer(DiT) 기반의 비디오 생성 모델은 시각적 품질과 시간적 일관성을 향상시켰지만, 물리 법칙과 상식적인 역학 관계를 위반하는 경우가 많았습니다. 본 연구에서는 이러한 모델에 유용한 세계 지식을 주입하기 위한 플러그 앤 플레이 방식의 메모리를 도입합니다. Transformer 기반 LLM의 In-context memory에서 영감을 받아, DiT의 숨겨진 상태에 대한 개입을 통해 모델을 제어할 수 있으며, 임베딩 공간에서 단순한 저역 및 고역 통과 필터를 사용하여 낮은 수준의 외관과 높은 수준의 물리적/의미적 단서를 자연스럽게 분리하여 목표 지침을 제공할 수 있음을 실험적으로 입증했습니다. 이러한 관찰을 바탕으로, 3D CNN, 저/고역 통과 필터, 셀프 어텐션 레이어로 구성된 학습 가능한 메모리 인코더 DiT-Mem을 제안합니다. 이 인코더는 참조 비디오를 압축된 메모리 토큰 집합으로 매핑하여 DiT 셀프 어텐션 레이어 내에서 메모리로 연결됩니다. 학습 과정에서 확산 백본은 고정하고 메모리 인코더만 최적화합니다. 이는 적은 수의 매개변수(150M)와 10K 데이터 샘플로 효율적인 학습을 가능하게 하며, 추론 시 플러그 앤 플레이 방식으로 사용할 수 있습니다. 최첨단 모델에 대한 광범위한 실험을 통해 물리 법칙 준수와 비디오 충실도를 개선하는 데 있어 제안된 방법의 효과를 입증했습니다.