इस शोधपत्र में, हम OpenS2S प्रस्तुत करते हैं, जो सहानुभूतिपूर्ण स्वर संवाद के लिए एक पूर्णतः मुक्त स्रोत, पारदर्शी, अंत-से-अंत वृहत्-स्तरीय भाषा मॉडल (LSLM) है। OpenS2S, सहानुभूतिपूर्ण वाक्-से-पाठ मॉडल BLSP-Emo पर आधारित स्ट्रीमिंग इंटरलीव्ड डिकोडिंग आर्किटेक्चर का उपयोग करके कम-विलंबता वाक् निर्माण प्राप्त करता है। यह एक स्वचालित डेटा निर्माण पाइपलाइन को एकीकृत करता है जो कम लागत पर विविध, उच्च-गुणवत्ता वाले, सहानुभूतिपूर्ण वाक् वार्तालापों का संश्लेषण करता है, जिससे अंत-से-अंत शिक्षण सुगम होता है। हम सहानुभूतिपूर्ण सामग्री उत्पन्न करने के लिए वृहत्-स्तरीय भाषा मॉडल का लाभ उठाते हैं, और एक नियंत्रणीय पाठ-से-वाक् प्रणाली का उपयोग करके वक्ता और भावनात्मक विविधता का परिचय देते हैं, जिससे समृद्ध पारभाषाई विविधता और न्यूनतम मानवीय पर्यवेक्षण वाला एक मापनीय प्रशिक्षण कोष तैयार होता है। हम व्यापक शोध समुदाय का समर्थन करने और सहानुभूतिपूर्ण वाक् प्रणालियों में नवाचार को गति देने के लिए, डेटासेट, मॉडल भार, पूर्व-प्रशिक्षण और फ़ाइन-ट्यूनिंग कोड सहित, पूरी तरह से मुक्त स्रोत OpenS2S मॉडल जारी करते हैं।