Dans cet article, nous présentons DFVEdit, une méthode efficace de montage vidéo sans prise de vue pour les transformateurs de diffusion vidéo (DiT). Alors que les méthodes de montage vidéo existantes nécessitent une correction ou un réglage précis de l'attention, ce qui requiert des ressources de calcul importantes lorsqu'elles sont appliquées aux DiT, DFVEdit résout ces problèmes en manipulant directement des variables latentes propres via une transformation de flux. Nous intégrons le montage et l'échantillonnage dans une perspective de flux continu, proposons des vecteurs de flux delta conditionnels (CDFV), qui sont des estimateurs de DFV théoriquement non biaisés, et intégrons le guidage par attention croisée implicite (ICA) et l'amélioration de l'intégration (ER) pour améliorer la qualité du montage. Nous démontrons expérimentalement que DFVEdit atteint une vitesse d'inférence au moins 20 fois plus rapide et une réduction de mémoire de 85 % par rapport aux méthodes de montage basées sur l'ingénierie de l'attention, et peut être appliqué de manière transparente aux DiT vidéo populaires tels que CogVideoX et Wan2.1. Il atteint des performances de pointe en termes de fidélité structurelle, de cohérence spatio-temporelle et de qualité de montage.