यह शोधपत्र पाठ-से-संगीत निर्माण में दो प्रमुख मॉडलिंग प्रतिमानों की व्यवस्थित रूप से तुलना और विश्लेषण करता है: ऑटोरिग्रैसिव डिकोडिंग और कंडीशनल फ्लो-मैचिंग। समान डेटासेट, प्रशिक्षण विन्यास और समान अंतर्निहित आर्किटेक्चर का उपयोग करते हुए, हमने दोनों प्रतिमानों के लिए मॉडलों को शुरू से प्रशिक्षित किया और विभिन्न पहलुओं पर उनके प्रदर्शन का मूल्यांकन किया, जिसमें निर्माण गुणवत्ता, अनुमान सेटिंग्स के लिए मजबूती, मापनीयता, पाठ और टेम्पोरल संरेखण आवश्यकताओं का अनुपालन, और ऑडियो इनपेंटिंग के माध्यम से संपादन क्षमताएँ शामिल हैं। यह प्रत्येक प्रतिमानों की खूबियों और कमजोरियों, उनके समझौतों, और पाठ-से-संगीत निर्माण प्रणालियों के भविष्य के डिज़ाइन और प्रशिक्षण के बारे में व्यावहारिक अंतर्दृष्टि प्रदान करता है।