दिशात्मक प्रेरणा: लक्ष्यों तक बेहतर पहुँचने के लिए तकनीकें

डायरेक्शनल स्टिमुलस प्रॉम्प्टिंग (डीएसपी) 2023 में ज़ेकुन ली की टीम द्वारा प्रकाशित पेपर <डायरेक्शनल स्टिमुलस प्रॉम्प्टिंग के माध्यम से बड़े भाषा मॉडल का मार्गदर्शन> में प्रस्तावित एक विधि है।

Guiding Large Language Models via Directional Stimulus Prompting.pdf1.98MB

दिशात्मक प्रोत्साहन संकेत बड़े पैमाने के भाषा मॉडल (एलएलएम) को किसी खास वांछित परिणाम की ओर निर्देशित करने के लिए एक नया फ्रेमवर्क है। यह विधि एलएलएम को सीधे ट्यून करने के बजाय, प्रत्येक इनपुट उदाहरण के लिए सहायक दिशात्मक प्रोत्साहन संकेत उत्पन्न करने के लिए एक छोटे और ट्यून करने योग्य पॉलिसी मॉडल (जैसे T5) को काम में लेती है। ये दिशात्मक प्रोत्साहन संकेत उदाहरण-विशेष विस्तृत सुझाव और सुराग के रूप में एलएलएम को वांछित परिणाम उत्पन्न करने का मार्ग दिखाते हैं।

वास्तविक उदाहरण

•

इनपुट टेक्स्ट: बॉब बार्कर आठ साल बाद "द प्राइस इज़ राइट" शो पर लौटे।

•

संदर्भ सारांश: बॉब बार्कर ने बुधवार को "द प्राइस इज़ राइट" के मेजबान के रूप में कार्यभार संभाला। बार्कर 2007 में मेज़बानी से सेवानिवृत्त हुए थे।

दिशात्मक प्रोत्साहन संकेत: प्रश्न: उपरोक्त लेख के आधार पर, नीचे दिए गए संकेतों के अनुसार इसे 2-3 वाक्यों में संक्षिप्त रूप से प्रस्तुत करें। संकेत: बॉब बार्कर; टीवी; 1 अप्रैल; "द प्राइस इज़ राइट"; 2007; 91।

•

मॉडल आउटपुट: 1 अप्रैल को बॉब बार्कर आठ साल बाद टीवी शो "द प्राइस इज़ राइट" में लौटे। 91 वर्षीय बार्कर ने उत्साह के साथ अपनी पहली कीमत अनुमान लगाने की प्रतियोगिता को होस्ट किया। बार्कर ने 2007 में मेज़बानी छोड़ी थी, लेकिन वह अब भी बिल्कुल फिट नजर आए।

इसका इस्तेमाल कहां किया जाता है?

यह विधि लेबल किए गए डेटा के साथ पॉलिसी मॉडल को बेहतर बनाने के लिए सुपरवाइज्ड फाइन-ट्यूनिंग (SFT) का उपयोग करती है, और एलएलएम के आउटपुट के आधार पर ऑनलाइन या ऑफलाइन रिवॉर्ड के जरिये पॉलिसी मॉडल को आगे अनुकूलित करने के लिए रीइन्फोर्समेंट लर्निंग (RL) का सहारा लेती है।

•

डीएसपी छोटे और ट्यून करने योग्य भाषा मॉडल (उदाहरण के लिए, सुदृढीकरण शिक्षण मॉडल) को उपयोग में लेते हैं ताकि एलएलएम की प्रतिक्रियाओं को वांछित परिणाम तक पहुँचाने के लिए सुझाव या संकेत तैयार किए जा सकें।

•

यह पारंपरिक फाइन-ट्यूनिंग तरीकों की तुलना में अधिक नियंत्रण की सुविधा देता है और मॉडल की सामान्य क्षमताओं को बनाए रखते हुए उसकी प्रतिक्रियाओं का मार्गदर्शन करता है।

व्यावहारिक उपयोग का उदाहरण:

ग्राहक सेवा क्षेत्र में, डीएसपी का उपयोग ग्राहकों की शिकायतों का विश्लेषण करने और त्वरित व सही समाधान प्रदान करने के द्वारा दक्षता बढ़ाने व मानवीय प्रयास का समर्थन करने में किया जा सकता है।

ग्राहक सेवा के परिप्रेक्ष्य में, "ग्राहक डिलीवरी में देरी को लेकर शिकायत करता है" ऐसे प्रॉम्प्ट पर, डीएसपी जैसे संकेत उत्पन्न कर सकता है: "माफी मांगें, आश्वस्त करें, समाधान दें"— ताकि एलएलएम ग्राहकों को जवाब दे सके, जैसे: "डिलीवरी में हुई देरी के लिए क्षमा चाहता हूँ, आपका ऑर्डर अब प्राथमिकता में है और समय पर पहुंचे इसके लिए हमने कार्रवाई शुरू कर दी है।" इसका मकसद सहानुभूतिपूर्ण व उपयोगी प्रतिक्रिया तैयार करना है।

स्रोत को दर्शाते हुए और कॉपीराइट होल्डर की अनुमति से इसका व्यावसायिक उपयोग किया जा सकता है।

कॉपीराइट धारक की अनुमति से इसका उपयोग वाणिज्यिक प्रयोजनों के लिए किया जा सकता है, बशर्ते स्रोत का उल्लेख किया जाए।

Made with Slashpage