यह शोधपत्र रीप्ले हमलों, जो बड़े पैमाने के भाषा मॉडल (एलएलएम) के लिए एक सुरक्षा ख़तरा है, पर एक अध्ययन के परिणाम प्रस्तुत करता है। यह उन हमलों पर केंद्रित है जो उपयोगकर्ता-नियंत्रित प्रतिक्रिया प्रीफ़िल विशेषता का फ़ायदा उठाते हैं, न कि पिछले अध्ययनों में मुख्य रूप से संबोधित प्रॉम्प्ट-स्तरीय हमलों पर। प्रीफ़िल हमलावरों को मॉडल आउटपुट की शुरुआत में हेरफेर करने की अनुमति देता है, जिससे हमले का प्रतिमान अनुनय-आधारित हमलों से मॉडल स्थिति में सीधे हेरफेर की ओर स्थानांतरित हो जाता है। प्रीफ़िल स्तर पर रीप्ले हमलों को वर्गीकृत करने और उनकी प्रभावशीलता का मूल्यांकन करने के लिए 14 एलएलएम पर ब्लैक-बॉक्स सुरक्षा विश्लेषण किया गया। प्रायोगिक परिणामों से पता चलता है कि अनुकूली विधियों का उपयोग करने वाले हमलों ने कई मॉडलों में 99% से अधिक सफलता दर हासिल की, और टोकन-स्तरीय संभाव्यता विश्लेषण ने पुष्टि की कि प्रारंभिक स्थिति हेरफेर के कारण पहली टोकन संभावना अस्वीकृति से सहयोग में बदल गई। इसके अलावा, हम प्रदर्शित करते हैं कि प्रीफ़िल स्तर पर रीप्ले हमले मौजूदा प्रॉम्प्ट-स्तरीय हमलों की सफलता दर को प्रभावी रूप से 10-15 प्रतिशत अंकों तक बढ़ा देते हैं। कई रक्षा रणनीतियों के मूल्यांकन से पता चला कि मौजूदा सामग्री फ़िल्टर सीमित सुरक्षा प्रदान करते हैं, और प्रॉम्प्ट और प्रीफ़िल के बीच परिचालन संबंध पर ध्यान केंद्रित करने वाली पहचान विधियाँ अधिक प्रभावी हैं। निष्कर्ष में, हम वर्तमान एलएलएम सुरक्षा संरेखण में कमजोरियों को उजागर करते हैं और भविष्य के सुरक्षा प्रशिक्षण में पूर्व-भरण हमले की सतहों को संबोधित करने की आवश्यकता पर जोर देते हैं।