दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

रूसी सोशल मीडिया में मूल्य-अभिव्यक्तिपरक टेक्स्ट पोस्ट का पता लगाना

Created by
  • Haebom

लेखक

मारिया मिल्कोवा, मक्सिम रुडनेव, लिडिया ओकोल्स्काया

रूपरेखा

इस शोधपत्र का उद्देश्य एक ऐसा मॉडल विकसित करना है जो रूसी सोशल मीडिया VKontakte पर मूल्य-व्यक्त करने वाले पोस्टों का सटीक रूप से पता लगा सके। हमारा मानना ​​है कि सोशल मीडिया में व्यक्तिगत मूल्यों का अध्ययन इस बात पर प्रकाश डाल सकता है कि सामाजिक मूल्य कैसे और क्यों विकसित होते हैं, खासकर जब सर्वेक्षण जैसे उत्तेजना-आधारित तरीके अप्रभावी होते हैं (उदाहरण के लिए, दुर्गम आबादी के लिए)। हमने तीन विशेषज्ञों, 304 क्राउड वर्कर्स और ChatGPT का उपयोग करके 5,035 पोस्टों पर टिप्पणी की, और विभिन्न पूर्व-प्रशिक्षित ट्रांसफॉर्मर-आधारित भाषा मॉडल से एम्बेडिंग का उपयोग करके कई वर्गीकरण मॉडल प्रशिक्षित किए, जिसमें एक सक्रिय शिक्षण दृष्टिकोण सहित मानव और AI-सहायता प्राप्त एनोटेशन का एक समूह लागू किया गया। सर्वोत्तम प्रदर्शन (F1 = 0.75, F1-मैक्रो = 0.80) परिष्कृत रूबर्ट-टिनी2 मॉडल से एम्बेडिंग का उपयोग करके प्राप्त किया जाता है, जो रूसी सोशल मीडिया उपयोगकर्ताओं के भीतर और उनके बीच मूल्यों के अध्ययन में एक महत्वपूर्ण कदम प्रदान करता है। पोस्ट वर्गीकरण में क्राउड वर्कर्स और विशेषज्ञों के बीच सहमति मध्यम है, ChatGPT उच्च स्थिरता दिखा रहा है लेकिन स्पैम का पता लगाने में संघर्ष कर रहा है।

Takeaways, Limitations

Takeaways: रूसी सोशल मीडिया पर मूल्य-अभिव्यक्ति पोस्टों का उच्च सटीकता से पता लगाने वाला एक मॉडल सफलतापूर्वक विकसित किया गया है, जो रूसी सोशल मीडिया उपयोगकर्ताओं की मूल्य-अभिव्यक्ति के अध्ययन में योगदान दे सकता है। यह मानव और कृत्रिम बुद्धिमत्ता (AI) के बीच सहयोग के माध्यम से डेटा एनोटेशन की प्रभावशीलता को प्रदर्शित करता है।
Limitations: क्राउड वर्कर्स और विशेषज्ञों के बीच एनोटेशन सहमति केवल मध्यम थी। चैटजीपीटी को स्पैम का पता लगाने में कठिनाई हुई। मॉडल का प्रदर्शन रूसी सोशल मीडिया VKontakte तक सीमित था, इसलिए सामान्यीकरण पर और शोध की आवश्यकता है। ऐसी संभावना है कि डेटासेट का पूर्वाग्रह मॉडल के प्रदर्शन को प्रभावित करता है।
👍