[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

सीलगार्ड: एलएलएम सॉफ्टवेयर प्रणालियों के लिए दक्षिण पूर्व एशियाई भाषाओं में बहुभाषी वार्तालापों की सुरक्षा

Created by
  • Haebom

लेखक

वेनलियांग शान, माइकल फू, रुई यांग, चक्रित तांतिथमथावोर्न

रूपरेखा

यह शोधपत्र SEALGuard प्रस्तुत करता है, जो एक बहुभाषी सुरक्षा उपाय है जिसका उद्देश्य बहुभाषी परिवेशों में बड़े पैमाने के भाषा मॉडल (LLM) की सुरक्षा में सुधार करना है। मौजूदा सुरक्षा उपाय, LlamaGuard, अंग्रेजी में लिखे गए असुरक्षित इनपुट के लिए उच्च पहचान सटीकता रखता है, लेकिन यह बहुभाषी इनपुट के प्रति संवेदनशील है। इस समस्या का समाधान करने के लिए, हमने SEALSBench का निर्माण किया, जो एक बड़े पैमाने का बहुभाषी सुरक्षा-संरेखित डेटासेट है जिसमें 10 भाषाओं को कवर करने वाले 260,000 से अधिक प्रॉम्प्ट शामिल हैं, और SEALGuard विकसित किया, जो निम्न-स्तरीय अनुकूलन (LoRA) का उपयोग करके एक सामान्य बहुभाषी भाषा मॉडल को बहुभाषी सुरक्षा उपाय के अनुकूल बनाता है। प्रायोगिक परिणाम दर्शाते हैं कि SEALGuard बहुभाषी असुरक्षित प्रॉम्प्ट और जेलब्रेक प्रॉम्प्ट का पता लगाने में LlamaGuard से बेहतर प्रदर्शन करता है, और DSR, परिशुद्धता और F1 स्कोर में सर्वश्रेष्ठ प्रदर्शन प्राप्त करता है। इसके अतिरिक्त, हम एब्लेशन अध्ययनों के माध्यम से SEALGuard के प्रदर्शन पर अनुकूलन रणनीति और मॉडल आकार के प्रभाव का विश्लेषण करते हैं। अंत में, हम आगे के शोध का समर्थन करने के लिए पूर्व-प्रशिक्षित मॉडल और बेंचमार्क जारी करते हैं।

Takeaways, Limitations

Takeaways:
सीलगार्ड का परिचय, एक नया बहुभाषी सुरक्षा उपकरण जो बहुभाषी वातावरण में एलएलएम की सुरक्षा में सुधार करने में योगदान देता है।
मौजूदा तरीकों की तुलना में बेहतर बहुभाषी सुरक्षा शीघ्र पहचान प्रदर्शन प्रदर्शित करता है।
SEALSBench की घोषणा, एक बड़े पैमाने पर बहुभाषी सुरक्षा संरेखण डेटासेट।
निम्न-स्तरीय अनुकूलन (LoRA) का उपयोग करते हुए एक कुशल मॉडल अनुकूलन विधि प्रस्तुत की गई है।
Limitations:
SEALSBench डेटासेट में शामिल भाषाओं की संख्या और प्रकार सीमित हो सकते हैं (10 भाषाएँ)।
हो सकता है कि यह वास्तविक दुनिया में विभिन्न सुरक्षा खतरों को पूरी तरह से कवर न कर पाए।
नए प्रकार के असुरक्षित प्रॉम्प्ट या जेलब्रेक तकनीकों के लिए सामान्यीकरण प्रदर्शन सत्यापन की आवश्यकता होती है।
कम्प्यूटेशनल लागत और मॉडल आकार को अनुकूलित करने के लिए आगे अनुसंधान की आवश्यकता है।
👍