दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

सिंथेटिक बनाम सोना: साइबरबुलिंग का पता लगाने में एलएलएम जनित लेबल और डेटा की भूमिका

Created by
  • Haebom

लेखक

अरेफ़ेह काज़ेमी, श्री बालाजी नटराजन कलैवेंडन, जोआचिम वैगनर, हमजा कादिर, कनिष्क वर्मा, ब्रायन डेविस

रूपरेखा

यह शोधपत्र बच्चों सहित ऑनलाइन उपयोगकर्ताओं के लिए साइबरबुलिंग (सीबी) पहचान प्रणाली विकसित करने की चुनौतियों पर विचार करता है। विशेष रूप से, हम बच्चों की भाषा और संचार शैलियों को दर्शाने वाले लेबलयुक्त डेटा की कमी को दूर करने के लिए एक बड़े पैमाने के भाषा मॉडल (एलएलएम) का उपयोग करके सिंथेटिक डेटा और लेबल उत्पन्न करने की एक विधि प्रस्तावित करते हैं। प्रायोगिक परिणाम दर्शाते हैं कि एलएलएम के माध्यम से उत्पन्न सिंथेटिक डेटा पर प्रशिक्षित एक BERT-आधारित सीबी क्लासिफायर, वास्तविक डेटा पर प्रशिक्षित क्लासिफायर के तुलनीय प्रदर्शन (75.8% सटीकता बनाम 81.5% सटीकता) प्राप्त करता है। इसके अलावा, एलएलएम वास्तविक दुनिया के डेटा को लेबल करने के लिए भी प्रभावी है, जहाँ BERT क्लासिफायर तुलनीय प्रदर्शन (79.1% सटीकता बनाम 81.5% सटीकता) प्राप्त करता है। इससे पता चलता है कि साइबरबुलिंग पहचान डेटा उत्पन्न करने के लिए एलएलएम एक मापनीय, नैतिक और लागत-प्रभावी समाधान हो सकता है।

____T43700_____, ____T43701_____

Takeaways:
हम यह प्रदर्शित करते हैं कि एलएलएम साइबरबुलिंग पहचान प्रणालियों के लिए डेटा निर्माण और लेबलिंग चुनौतियों का प्रभावी ढंग से समाधान कर सकता है।
हम बच्चों पर साइबर धमकी संबंधी डेटा प्राप्त करने की चुनौती के लिए व्यावहारिक समाधान प्रस्तुत करते हैं, जो नैतिक, कानूनी और तकनीकी बाधाओं से बाधित है।
एलएलएम-आधारित सिंथेटिक डेटा का लाभ उठाने से लागत प्रभावी और स्केलेबल साइबरबुलिंग डिटेक्शन सिस्टम का निर्माण संभव हो पाता है।
Limitations:
सिंथेटिक डेटा का उपयोग करने वाले मॉडल का प्रदर्शन वास्तविक डेटा का उपयोग करने वाले मॉडल की तुलना में थोड़ा कम था (75.8% बनाम 81.5%)। प्रदर्शन के इस अंतर को कम करने के लिए और अधिक शोध की आवश्यकता है।
एलएलएम द्वारा उत्पन्न डेटा की गुणवत्ता और विविधता का और अधिक सत्यापन आवश्यक है।
इस बात का मूल्यांकन करने की आवश्यकता है कि एलएलएम द्वारा उत्पन्न डेटा वास्तविक बच्चों के भाषा उपयोग पैटर्न को कितनी सटीकता से प्रतिबिंबित करता है।
👍