Cet article souligne l'importance de la continuité cinématique et des schémas de montage dans la génération de plans multiples et présente Cut2Next, un nouveau framework qui surmonte les limites des méthodes existantes. Cut2Next génère le plan suivant grâce à une stratégie de multi-invites hiérarchique basée sur le Diffusion Transformer (DiT). Cette multi-invite hiérarchique utilise des invites relationnelles et individuelles pour spécifier le contexte général, le style de montage entre les plans, ainsi que le contenu et les propriétés cinématiques de chaque plan. Des innovations structurelles telles que l'injection de conditions contextuelles (CACI) et le masque d'attention hiérarchique (HAM) intègrent divers indices sans ajout de paramètres. Nous construisons un jeu de données RawCuts à grande échelle et un jeu de données CuratedCuts affiné, puis présentons CutBench pour évaluation. Les résultats expérimentaux démontrent que Cut2Next offre de bonnes performances en termes de cohérence visuelle et de fidélité textuelle. Plus précisément, des études utilisateurs ont confirmé une forte préférence pour le respect des schémas de montage prévus et la continuité cinématique, validant sa capacité à générer des plans suivants de haute qualité et cohérents sur le plan narratif.