[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

स्टाइलोमेट्री छोटे नमूनों में मानव और एलएलएम-जनित पाठों को पहचानती है

Created by
  • Haebom

लेखक

करोल प्रिज़िस्टल्स्की, जान के. अर्गासी एनस्की, इवोना ग्रेबस्का-ग्रैडज़ी एनस्का, जेरेमी के. ओचब

रूपरेखा

यह शोधपत्र बड़े पैमाने के भाषा मॉडल (एलएलएम) द्वारा निर्मित पाठों और मानव-लिखित पाठों के बीच अंतर करने के एक तरीके के रूप में शैलीमितीय विश्लेषण का अन्वेषण करता है। मॉडल विशेषता, बौद्धिक संपदा अधिकार और कृत्रिम बुद्धिमत्ता (एआई) के नैतिक उपयोग जैसे मुद्दों को संबोधित करने के लिए, हम एलएलएम-जनित पाठों में नवीन कथात्मक पैटर्न की पहचान करने के लिए मौजूदा शैलीमितीय तकनीकों का उपयोग करते हैं। हम विकिपीडिया से मानव-लिखित सारांशों, विभिन्न एलएलएम (जीपीटी-3.5/4, एलएलएएमए 2/3, ओर्का, फाल्कन) द्वारा निर्मित पाठों, और बहु-पाठ सारांश विधियों (टी5, बीएआरटी, जेनसिम, सुमी) और पैराफ्रेज़िंग विधियों (डिपर, टी5) के अधीन पाठों से युक्त एक मानक डेटासेट बनाते हैं। हम निर्णय वृक्षों और लाइटजीबीएम जैसे वृक्ष-आधारित मॉडलों का उपयोग करके 10-वाक्य वाले पाठों को वर्गीकृत करते हैं, जिसमें शाब्दिक, व्याकरणिक, वाक्यविन्यास और विराम चिह्न पैटर्न सहित शैलीमितीय विशेषताएँ शामिल हैं। हमने 7-वर्ग बहु-वर्ग परिदृश्य में 0.87 तक मैथ्यूज़ सहसंबंध गुणांक और द्विआधारी वर्गीकरण में 0.79–1.0 सटीकता प्राप्त की। विशेष रूप से, विकिपीडिया और GPT-4 के लिए, हमने संतुलित डेटासेट पर 0.98 तक सटीकता प्राप्त की। शैप्ले एडिटिव एक्सप्लेनेशन्स के माध्यम से, हमने विश्वकोश-प्रकार के पाठों की विशिष्ट विशेषताओं की पहचान की, जैसे कि अत्यधिक प्रयुक्त शब्द, और मानव-लिखित पाठों की तुलना में LLM का उच्च व्याकरणिक मानकीकरण। ये परिणाम प्रदर्शित करते हैं कि, तेजी से परिष्कृत LLM के संदर्भ में, कुछ प्रकार के पाठों के लिए मशीन-जनित और मानव-जनित पाठों में अंतर किया जा सकता है।

Takeaways, Limitations

Takeaways:
हम एलएलएम-जनित पाठों को मानव-लिखित पाठों से अलग करने की क्षमता को प्रदर्शित करने वाले अनुभवजन्य परिणाम प्रस्तुत करते हैं।
विभिन्न एलएलएम और पाठ प्रसंस्करण विधियों पर विचार करते हुए एक व्यापक बेंचमार्क डेटासेट का निर्माण करना।
शैलीगत विश्लेषण के माध्यम से एलएलएम-जनित पाठों में विशिष्ट पैटर्न की पहचान करना और व्याख्या करना।
मॉडल एट्रिब्यूशन, बौद्धिक संपदा अधिकार और एआई के नैतिक उपयोग के मुद्दों का समाधान प्रदान करता है।
Limitations:
सीमित सामान्यीकरण, क्योंकि परिणाम एक विशिष्ट प्रकार के पाठ के विश्लेषण से हैं (विकिपीडिया सारांश)।
एलएलएम और प्रयुक्त पाठ प्रसंस्करण विधियों में सीमाओं के कारण सामान्यीकरण में कठिनाई।
अधिक परिष्कृत एलएलएम के आगमन के साथ, प्रदर्शन में गिरावट की संभावना है।
विभिन्न शैलियों और लंबाई के ग्रंथों पर आगे अनुसंधान की आवश्यकता है।
👍