यह शोधपत्र बच्चों सहित ऑनलाइन उपयोगकर्ताओं के लिए साइबरबुलिंग (सीबी) पहचान प्रणाली विकसित करने की चुनौतियों पर विचार करता है। विशेष रूप से, हम बच्चों की भाषा और संचार शैलियों को दर्शाने वाले लेबलयुक्त डेटा की कमी को दूर करने के लिए एक बड़े पैमाने के भाषा मॉडल (एलएलएम) का उपयोग करके सिंथेटिक डेटा और लेबल उत्पन्न करने की एक विधि प्रस्तावित करते हैं। प्रायोगिक परिणाम दर्शाते हैं कि एलएलएम के माध्यम से उत्पन्न सिंथेटिक डेटा पर प्रशिक्षित एक BERT-आधारित सीबी क्लासिफायर, वास्तविक डेटा पर प्रशिक्षित क्लासिफायर के तुलनीय प्रदर्शन (75.8% सटीकता बनाम 81.5% सटीकता) प्राप्त करता है। इसके अलावा, एलएलएम वास्तविक दुनिया के डेटा को लेबल करने के लिए भी प्रभावी है, जहाँ BERT क्लासिफायर तुलनीय प्रदर्शन (79.1% सटीकता बनाम 81.5% सटीकता) प्राप्त करता है। इससे पता चलता है कि साइबरबुलिंग पहचान डेटा उत्पन्न करने के लिए एलएलएम एक मापनीय, नैतिक और लागत-प्रभावी समाधान हो सकता है।