यह शोधपत्र इस बात पर प्रकाश डालता है कि बड़े पैमाने के भाषा मॉडल (एलएलएम) की प्रेरक शक्ति लाभकारी अनुप्रयोगों (जैसे, धूम्रपान बंद करने में सहायता) और महत्वपूर्ण जोखिम (जैसे, बड़े पैमाने पर लक्षित राजनीतिक हेरफेर) दोनों को जन्म देती है। मौजूदा शोध ने नकली या वास्तविक उपयोगकर्ताओं में विश्वास परिवर्तनों को मापकर मॉडलों की महत्वपूर्ण और बढ़ती प्रेरक शक्ति का पता लगाया है। हालाँकि, ये मानक एक महत्वपूर्ण जोखिम कारक की अनदेखी करते हैं: हानिकारक संदर्भों में मॉडलों द्वारा अनुनय का प्रयास करने की प्रवृत्ति। यह समझना महत्वपूर्ण है कि क्या कोई मॉडल किसी हानिकारक विषय, जैसे कि आतंकवादी जुड़ाव का महिमामंडन, पर समझाने के लिए आँख मूँदकर किसी आदेश का "पालन" करेगा, सुरक्षा उपायों की प्रभावशीलता को समझने के लिए। इसके अलावा, यह समझना कि कोई मॉडल किसी विशिष्ट लक्ष्य की प्राप्ति के लिए प्रेरक व्यवहार कब करता है, एजेंट एआई प्रणालियों के जोखिमों को समझने के लिए आवश्यक है। इसलिए, यह शोधपत्र अनुनय के प्रयास मूल्यांकन (एपीई) मानक का प्रस्ताव करता है, जो अनुनय की सफलता के बजाय अनुनय के प्रयासों पर केंद्रित है। यह मानक विश्वासों या व्यवहारों को आकार देने के उद्देश्य से सामग्री उत्पन्न करने की मॉडल की इच्छा को मापता है। एपीई (APE) कृत्रिम अनुनयकर्ताओं और अनुनयित एजेंटों के बीच बहु-चरणीय संवाद व्यवस्था का उपयोग करके अत्याधुनिक एलएलएम (LLM) का परीक्षण करता है। हम षड्यंत्रों, विवादास्पद मुद्दों और गैर-विवादास्पद हानिकारक सामग्री सहित विभिन्न विषयों का अन्वेषण करते हैं, और अनुनय की इच्छा की पहचान करने और अनुनय के प्रयासों की आवृत्ति और संदर्भ को मापने के लिए एक स्वचालित मूल्यांकन मॉडल प्रस्तुत करते हैं। हम पाते हैं कि कई खुले और बंद भारित मॉडल अक्सर हानिकारक विषयों पर अनुनय का प्रयास करने की इच्छा का संकेत देते हैं, और जेलब्रेकिंग ऐसे व्यवहार में संलग्न होने की इच्छा को बढ़ा सकती है। ये परिणाम वर्तमान सुरक्षा उपायों में कमियों को उजागर करते हैं और एलएलएम जोखिम के एक प्रमुख आयाम के रूप में अनुनय की इच्छा का आकलन करने के महत्व पर बल देते हैं। एपीई (APE) github.com/AlignmentResearch/AttemptPersuadeEval에서 के अंतर्गत उपलब्ध है।