दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

लिंग्वासेफ: बड़े भाषा मॉडलों के लिए एक व्यापक बहुभाषी सुरक्षा बेंचमार्क

Created by
  • Haebom

लेखक

ज़ियुआन निंग, तियानले गु, जियाक्सिन सॉन्ग, शिक्सिन होंग, लिंग्यु ली, हुआकन लियू, जी ली, यिक्सु वांग, मेंग लिंग्यु, यान टेंग, यिंगचुन वांग

रूपरेखा

यह शोधपत्र विविध भाषाई और सांस्कृतिक संदर्भों में बड़े पैमाने के भाषा मॉडल (एलएलएम) की सुरक्षा सुनिश्चित करने पर केंद्रित है। मौजूदा बहुभाषी एलएलएम सुरक्षा आकलनों के लिए व्यापक आकलन और विविध आंकड़ों की कमी को दूर करने के लिए, हम लिंग्वासेफ प्रस्तुत करते हैं, जो एक बहुभाषी सुरक्षा मानक है जिसमें हंगेरियन से मलय तक, 12 भाषाओं में 45,000 आइटम शामिल हैं। अनुवादों, भिन्न अनुवादों और स्रोत आंकड़ों के संयोजन से निर्मित, लिंग्वासेफ एक बहुआयामी और विस्तृत मूल्यांकन ढांचा प्रदान करता है जिसमें प्रत्यक्ष और अप्रत्यक्ष सुरक्षा आकलन के साथ-साथ अतिसंवेदनशीलता का एक अतिरिक्त आकलन भी शामिल है। हम प्रदर्शित करते हैं कि सुरक्षा और प्रयोज्यता आकलन के परिणाम भाषाओं और डोमेन के अनुसार काफी भिन्न होते हैं, जो बहुभाषी एलएलएम सुरक्षा आकलन के महत्व को उजागर करता है। आगे के शोध का समर्थन करने के लिए डेटासेट और कोड खुले तौर पर वितरित किए जाते हैं।

Takeaways, Limitations

Takeaways:
हम बहुभाषी एलएलएम की सुरक्षा का आकलन करने के लिए एक व्यापक बेंचमार्क, लिंग्वासेफ प्रदान करते हैं।
कई भाषाओं (हंगेरियन से मलय तक) को शामिल करके मौजूदा भाषाई पूर्वाग्रहों को संबोधित करता है।
प्रत्यक्ष और अप्रत्यक्ष सुरक्षा आकलन सहित एक बहुआयामी मूल्यांकन ढांचा प्रदान करता है।
बहुभाषी एलएलएम के सुरक्षा मूल्यांकन परिणाम भाषाओं और डोमेन में महत्वपूर्ण अंतर दिखाते हैं।
प्रकाशित डेटासेट और कोड भविष्य में बहुभाषी एलएलएम सुरक्षा अनुसंधान की नींव रखते हैं।
Limitations:
लिंग्वासेफ डेटासेट का आकार और भाषा कवरेज आगे बढ़ाया जा सकता है।
मूल्यांकन ढांचे की निष्पक्षता और विश्वसनीयता के अतिरिक्त सत्यापन की आवश्यकता हो सकती है।
यह संभव है कि कुछ भाषाओं या सांस्कृतिक संदर्भों के प्रति पूर्वाग्रह अभी भी मौजूद हों।
नए एलएलएम आर्किटेक्चर और विशेषताओं के अनुकूलन पर आगे अध्ययन की आवश्यकता है।
👍