Bài báo này nhấn mạnh tầm quan trọng của tính liên tục điện ảnh và các mẫu dựng phim trong quá trình tạo nhiều cảnh quay, đồng thời giới thiệu Cut2Next, một khuôn khổ mới khắc phục được những hạn chế của các phương pháp hiện có. Cut2Next tạo cảnh quay tiếp theo bằng chiến lược nhắc nhở đa cấp bậc dựa trên Diffusion Transformer (DiT). Nhắc nhở đa cấp bậc sử dụng các nhắc nhở quan hệ và riêng lẻ để xác định bối cảnh tổng thể, phong cách dựng phim giữa các cảnh quay, nội dung và đặc tính điện ảnh của mỗi cảnh quay. Các cải tiến về cấu trúc như Tiêm điều kiện nhận biết ngữ cảnh (CACI) và Mặt nạ chú ý phân cấp (HAM) tích hợp nhiều tín hiệu khác nhau mà không cần thêm tham số. Chúng tôi xây dựng một tập dữ liệu RawCuts quy mô lớn và một tập dữ liệu CuratedCuts được tinh chỉnh, đồng thời trình bày CutBench để đánh giá. Kết quả thử nghiệm chứng minh rằng Cut2Next hoạt động tốt về tính nhất quán hình ảnh và độ trung thực của văn bản. Cụ thể, các nghiên cứu người dùng đã xác nhận sự ưa chuộng mạnh mẽ đối với việc tuân thủ các mẫu dựng phim dự định và tính liên tục điện ảnh, xác nhận khả năng tạo ra các cảnh quay tiếp theo chất lượng cao, nhất quán về mặt tường thuật.