本文提出了一个简单有效的免训练框架——DiTraj,用于文本转视频生成中的轨迹控制。该框架基于基于3D全注意力机制的扩散变换器(DiT)视频生成模型。DiTraj通过LLM将用户提供的提示解耦为前景和背景提示,以指导视频中前景和背景区域的生成。此外,它还提出了帧间时空解耦3D RoPE(STD-RoPE)来增强轨迹控制。STD-RoPE通过仅修改前景token的位置嵌入来消除跨帧空间不匹配,并调整位置嵌入的密度以实现3D感知的轨迹控制。实验结果表明,该方法在视频质量和轨迹控制性能方面均优于现有方法。