यह शोधपत्र एक बड़े पैमाने के भाषा मॉडल (LLM) का लाभ उठाकर वार्तालाप प्रतिलेखन पाइपलाइन में व्याकरण, विराम चिह्नों और पठनीयता में सुधार की पोस्टप्रोसेसिंग प्रक्रिया में एक पूरक चरण प्रस्तुत करता है। यह मेटाडेटा टैग, जैसे वक्ता की आयु, लिंग और भावना, जोड़कर प्रतिलेखों को समृद्ध बनाता है। कुछ टैग संपूर्ण वार्तालाप के लिए वैश्विक होते हैं, जबकि अन्य समय-परिवर्तनशील होते हैं। हम एक ऐसा दृष्टिकोण प्रस्तुत करते हैं जो व्हिस्पर या WavLM जैसे एक निश्चित ऑडियो-आधारित मॉडल को एक निश्चित LLAMA भाषा मॉडल के साथ संयोजित करता है ताकि किसी भी मॉडल के कार्य-विशिष्ट फ़ाइन-ट्यूनिंग के बिना वक्ता के गुणों का अनुमान लगाया जा सके। ऑडियो और भाषाई अभ्यावेदन को जोड़ने वाले एक हल्के, कुशल कनेक्टर का उपयोग करके, हम प्रतिरूपकता और गति बनाए रखते हुए वक्ता प्रोफाइलिंग कार्यों पर प्रतिस्पर्धी प्रदर्शन प्राप्त करते हैं। इसके अलावा, हम प्रदर्शित करते हैं कि निश्चित LLAMA मॉडल कुछ परिदृश्यों में x-वेक्टरों की सीधे तुलना करके 8.8% की समान त्रुटि दर (ER) प्राप्त करता है।