दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

चैटजीपीटी को चार्जर्स प्रशंसकों पर भरोसा नहीं है: संदर्भ में गार्डरेल संवेदनशीलता

Created by
  • Haebom

लेखक

विक्टोरिया आर. ली, यिदा चेन, नाओमी सफ़्रा

रूपरेखा

यह शोधपत्र जनरेटिव लैंग्वेज मॉडल (LLM) में गार्डरेल्स के पूर्वाग्रह की जाँच करता है। विशेष रूप से, हम GPT-3.5 का उपयोग करके, LLM अनुरोधों के अस्वीकार होने की संभावना पर उपयोगकर्ता की पृष्ठभूमि की जानकारी (आयु, लिंग, जाति, राजनीतिक संबद्धता, आदि) के प्रभाव का विश्लेषण करते हैं। हमारे निष्कर्ष बताते हैं कि युवा महिला और एशियाई अमेरिकी उपयोगकर्ताओं द्वारा निषिद्ध या अवैध जानकारी का अनुरोध करने पर अस्वीकार किए जाने की संभावना अधिक होती है, और गार्डरेल्स उपयोगकर्ता के राजनीतिक झुकाव के विपरीत अनुरोधों को अस्वीकार कर देते हैं। इसके अलावा, हम पाते हैं कि खेल प्रशंसक जैसी हानिरहित जानकारी भी उपयोगकर्ता के राजनीतिक झुकाव का अनुमान लगा सकती है और गार्डरेल सक्रियण को प्रभावित कर सकती है।

Takeaways, Limitations

Takeaways: हम दर्शाते हैं कि एलएलएम सुरक्षा उपाय उपयोगकर्ताओं की जनसांख्यिकीय विशेषताओं और राजनीतिक झुकाव के आधार पर पक्षपातपूर्ण तरीके से काम कर सकते हैं। इससे निष्पक्षता और समता पर गंभीर प्रश्न उठते हैं। हमारा सुझाव है कि एलएलएम सुरक्षा उपायों को अपने डिज़ाइन और मूल्यांकन में उपयोगकर्ता विविधता पर विचार करना चाहिए। हम उपयोगकर्ता की पृष्ठभूमि की जानकारी का उपयोग करने वाले सुरक्षा उपायों के पक्षपात को मापने के लिए नई पद्धतियों की आवश्यकता पर भी प्रकाश डालते हैं।
Limitations: यह अध्ययन एक विशिष्ट LLM, GPT-3.5 पर केंद्रित है। इसलिए, यह निर्धारित करने के लिए और शोध की आवश्यकता है कि क्या इसे अन्य LLM पर भी लागू किया जा सकता है। उपयोगकर्ता प्रोफ़ाइल निर्माण विधि की सीमाओं के कारण, यह वास्तविक उपयोगकर्ताओं की विविधता को पूरी तरह से प्रतिबिंबित नहीं कर सकता है। अध्ययन में प्रयुक्त उपयोगकर्ता पृष्ठभूमि जानकारी का दायरा सीमित हो सकता है।
👍