본 논문은 텍스트-비디오 생성(T2V) 모델의 어려움 중 하나인 다중 객체와 다양한 움직임이 존재하는 복합적인 장면에서의 의미 정합 문제를 해결하기 위해, 플러그 앤 플레이 방식의 훈련이 필요 없는 새로운 방법인 StarVid를 제안한다. StarVid는 대규모 언어 모델(LLM)의 공간 추론 능력을 활용하여 텍스트 프롬프트 기반의 2단계 움직임 궤적 계획을 수립하고, 이를 공간적 사전 정보로 활용하여 공간 인식 손실 함수를 통해 크로스 어텐션(CA) 맵을 개별 영역에 집중시킨다. 또한, 구문 유도 대조 제약 조건을 통해 동사와 명사의 CA 맵 간 상관관계를 강화하여 움직임과 객체의 결합을 향상시킨다. 정성적 및 정량적 평가 결과, StarVid는 기존 방법보다 뛰어난 성능을 보이며, 의미 일관성이 향상된 고품질 비디오를 생성하는 것으로 나타났다.