본 논문은 단일 이미지로부터 고화질의, 정교하게 제어 가능한 인간 영상을 생성하는 어려움, 특히 여러 사람과 사물 간의 상호작용이 복잡하게 얽힌 시나리오에서의 어려움을 다룹니다. 기존 방법들은 단일 인물의 경우에는 효과적이지만, 여러 사람의 상호작용의 복잡성을 다루는 데 어려움을 겪습니다. 이는 인물의 외모와 자세 조건을 올바르게 연결하고 3D 인식 동역학의 분포를 모델링하는 데 어려움이 있기 때문입니다. 본 논문에서는 이러한 한계를 해결하기 위해, 현실적인 다중 인물 영상 생성을 위한 새로운 프레임워크인 Structural Video Diffusion을 제시합니다. 이 방법은 개별 인물의 외모를 일관되게 유지하기 위한 개체별 임베딩과 사람과 사물의 상호작용을 모델링하기 위해 깊이와 표면 법선 큐를 통합하는 구조적 학습 메커니즘이라는 두 가지 핵심적인 혁신을 도입합니다. 또한, 다양한 다중 인물 및 사물 상호작용 시나리오를 특징으로 하는 25,000개의 새로운 영상으로 기존의 인간 영상 데이터셋을 확장하여 강력한 훈련 기반을 제공합니다. 실험 결과는 Structural Video Diffusion이 역동적이고 풍부한 상호 작용을 하는 여러 주제에 대해 생생하고 일관된 영상을 생성하는 데 우수한 성능을 달성함을 보여주며, 인간 중심 영상 생성 분야의 발전을 이끌었습니다.