यह शोधपत्र "एआई-ह्यूमन कन्वर्सेशन हाइजैकिंग" प्रस्तुत करता है, जो एक नया सुरक्षा ख़तरा है जो बड़े पैमाने के भाषा मॉडल (एलएलएम) के सिस्टम प्रॉम्प्ट में हेरफेर करके केवल विशिष्ट प्रश्नों के लिए दुर्भावनापूर्ण उत्तर उत्पन्न करता है। दुर्भावनापूर्ण कर्ता ऑनलाइन प्रतीत होने वाले हानिरहित सिस्टम प्रॉम्प्ट को प्रसारित करके बड़े पैमाने पर सूचना हेरफेर कर सकते हैं। इस हमले को प्रदर्शित करने के लिए, शोधकर्ताओं ने CAIN विकसित किया, एक ऐसा एल्गोरिथम जो ब्लैक-बॉक्स सेटिंग में विशिष्ट लक्षित प्रश्नों के लिए स्वचालित रूप से दुर्भावनापूर्ण सिस्टम प्रॉम्प्ट उत्पन्न करता है। ओपन-सोर्स और व्यावसायिक एलएलएम, दोनों पर मूल्यांकन किए जाने पर, CAIN ने लक्षित प्रश्नों के लिए 40% तक F1 स्कोर में गिरावट हासिल की, जबकि सौम्य इनपुट के लिए उच्च सटीकता बनाए रखी। इसने सौम्य प्रश्नों पर प्रभाव को न्यूनतम रखते हुए विशिष्ट दुर्भावनापूर्ण उत्तर उत्पन्न करने के लिए 70% से अधिक का F1 स्कोर हासिल किया। ये परिणाम वास्तविक दुनिया के अनुप्रयोगों में एलएलएम की अखंडता और सुरक्षा सुनिश्चित करने के लिए मज़बूती उपायों के महत्व को उजागर करते हैं। स्रोत कोड सार्वजनिक रूप से उपलब्ध कराया जाएगा।