본 논문은 기존의 텍스트-비디오 생성 모델들이 주체의 정체성이나 움직임을 개별적으로만 고려하여 정체성과 움직임 간의 상호 제약과 상승작용을 무시함으로써 생성 과정에서 충돌이 발생하는 문제점을 지적한다. 이를 해결하기 위해, DualReal이라는 새로운 프레임워크를 제안한다. DualReal은 Dual-aware Adaptation과 StageBlender Controller 두 가지 구성 요소로 이루어져 있다. Dual-aware Adaptation은 정체성 또는 움직임 중 하나의 차원을 선택하여 학습하고, 다른 차원의 정보를 활용하여 학습을 안내하며 정보 유출을 방지하는 전략을 사용한다. StageBlender Controller는 잡음 제거 단계와 Diffusion Transformer의 깊이를 활용하여 각 차원을 적응적으로 제어하여 다양한 단계에서 충돌을 방지하고 정체성과 움직임 패턴을 손실 없이 융합한다. 기존 방법보다 포괄적인 벤치마크를 구축하여 실험을 진행한 결과, CLIP-I 및 DINO-I 지표에서 평균 21.7% 및 31.8% 향상을 보였으며, 거의 모든 움직임 품질 지표에서 최고 성능을 달성했다.