MagicComp은 기존 텍스트-비디오 생성(T2V) 모델의 한계인 속성 결합, 공간 관계 결정, 다중 주체 간 복잡한 상호 작용 포착 문제를 해결하기 위해 제안된 훈련이 필요 없는 방법입니다. 두 단계의 개선 과정을 통해 이를 달성하는데, 첫 번째 단계인 조건화 단계에서는 의미적 앵커의 방향 벡터를 텍스트 임베딩에 점진적으로 주입하여 주체 특유의 의미를 강화하고 주체 간 모호성을 해소하는 의미적 앵커 모호성 해소(Semantic Anchor Disambiguation) 기법을 사용합니다. 두 번째 단계인 잡음 제거 단계에서는 접지 사전 정보와 모델 적응형 공간 인식을 통합하여 마스크된 어텐션 변조를 통해 주체를 시공간 영역에 유연하게 결합하는 동적 레이아웃 융합 어텐션(Dynamic Layout Fusion Attention) 기법을 제안합니다. MagicComp은 모델에 독립적이며 다양한 기존 T2V 아키텍처에 통합될 수 있습니다. T2V-CompBench와 VBench에 대한 광범위한 실험 결과, MagicComp은 최첨단 방법들을 능가하며, 복잡한 프롬프트 기반 및 궤적 제어 가능한 비디오 생성과 같은 응용 분야에 대한 잠재력을 보여줍니다.