EMSYNC là một mô hình tạo nhạc biểu tượng dựa trên video, tạo ra âm nhạc phù hợp với nội dung cảm xúc và ranh giới thời gian của video. Nó tuân theo một khuôn khổ hai giai đoạn: một bộ phân loại cảm xúc video được đào tạo trước trích xuất các đặc điểm cảm xúc và một bộ tạo nhạc có điều kiện tạo ra các chuỗi MIDI dựa trên các tín hiệu cảm xúc và thời gian này. Cụ thể, chúng tôi giới thiệu một cơ chế điều kiện hóa thời gian mới, bù trừ ranh giới, cho phép dự đoán và căn chỉnh các hợp âm nhạc với các chuyển cảnh. Không giống như các mô hình hiện có, chúng tôi duy trì mã hóa dựa trên sự kiện, đảm bảo kiểm soát thời gian chi tiết và các sắc thái âm nhạc biểu cảm. Hơn nữa, chúng tôi đề xuất một sơ đồ ánh xạ cho kết nối giữa một bộ phân loại cảm xúc video, tạo ra các danh mục cảm xúc riêng biệt, và một bộ tạo MIDI có điều kiện cảm xúc, hoạt động trên các đầu vào kích thích hóa trị liên tục. Trong các bài kiểm tra nghe chủ quan, EMSYNC vượt trội hơn các mô hình tiên tiến trên tất cả các số liệu chủ quan cho cả người nghe am hiểu lý thuyết âm nhạc và người nghe thông thường.