EMSYNC एक वीडियो-आधारित प्रतीकात्मक संगीत निर्माण मॉडल है जो वीडियो की भावनात्मक सामग्री और समय-सीमाओं के अनुरूप संगीत उत्पन्न करता है। यह दो-चरणीय ढाँचे का अनुसरण करता है: एक पूर्व-प्रशिक्षित वीडियो भावना वर्गीकारक भावनात्मक विशेषताओं को निकालता है, और एक सशर्त संगीत जनरेटर इन भावनात्मक और समय-सीमा संकेतों के आधार पर MIDI अनुक्रम उत्पन्न करता है। विशेष रूप से, हम एक नवीन समय-सीमा अनुकूलन तंत्र, सीमा ऑफसेट, प्रस्तुत करते हैं जो संगीत रागों की भविष्यवाणी और दृश्य संक्रमणों के साथ संरेखण को सक्षम बनाता है। मौजूदा मॉडलों के विपरीत, हम घटना-आधारित एन्कोडिंग बनाए रखते हैं, जिससे सूक्ष्म समय नियंत्रण और अभिव्यंजक संगीत सूक्ष्मताएँ सुनिश्चित होती हैं। इसके अलावा, हम एक वीडियो भावना वर्गीकारक, जो असतत भावनात्मक श्रेणियाँ उत्पन्न करता है, और एक भावना-सशर्त MIDI जनरेटर, जो निरंतर संयोजकता-उत्तेजना इनपुट पर कार्य करता है, के बीच संबंध के लिए एक मानचित्रण योजना प्रस्तावित करते हैं। व्यक्तिपरक श्रवण परीक्षणों में, EMSYNC ने संगीत सिद्धांत-प्रेमी और आकस्मिक श्रोताओं, दोनों के लिए सभी व्यक्तिपरक मापों में अत्याधुनिक मॉडलों से बेहतर प्रदर्शन किया।