दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

चाइनीजहार्म-बेंच: चीनी हानिकारक सामग्री का पता लगाने का एक बेंचमार्क

Created by
  • Haebom

लेखक

कांगवेई लियू, सियुआन चेंग, बोझोंग तियान, ज़ियाओज़ुआन लियांग, युयांग यिन, मेंग हान, निंग्यु झांग, ब्रायन हूई, शी चेन, शुमिन डेंग

रूपरेखा

यह शोधपत्र चीनी भाषा में हानिकारक सामग्री का पता लगाने के लिए एक व्यापक, विशेषज्ञ-सम्मिलित मानक प्रस्तुत करता है। मौजूदा हानिकारक सामग्री पहचान संसाधनों के अंग्रेज़ी पर केंद्रित होने और चीनी भाषा के डेटासेट के सीमित दायरे की चुनौतियों का समाधान करने के लिए, हमने एक मानक विकसित किया है जिसमें वास्तविक दुनिया के डेटा की छह प्रतिनिधि श्रेणियाँ शामिल हैं। एनोटेशन प्रक्रिया के माध्यम से, हम एलएलएम में चीनी भाषा की हानिकारक सामग्री का पता लगाने में सहायता के लिए एक विशेषज्ञ ज्ञान नियम आधार स्थापित करते हैं। इसके बाद, हम एक ज्ञान संवर्धन आधारभूत मॉडल प्रस्तावित करते हैं जो मानव-एनोटेटेड ज्ञान नियमों को एलएलएम के अंतर्निहित ज्ञान के साथ एकीकृत करता है, जिससे एक छोटा मॉडल अत्याधुनिक एलएलएम के बराबर प्रदर्शन प्राप्त कर सकता है। कोड और डेटा https://github.com/zjunlp/ChineseHarm-bench पर उपलब्ध हैं ।

Takeaways, Limitations

Takeaways:
चीनी हानिकारक सामग्री का पता लगाने के क्षेत्र में डेटा की कमी की समस्या को हल करने में योगदान देना।
वास्तविक दुनिया के आंकड़ों के आधार पर बड़े पैमाने पर, क्रॉस-श्रेणी बेंचमार्क प्रदान करना।
विशेषज्ञ ज्ञान नियम आधार का लाभ उठाकर एलएलएम के प्रदर्शन में सुधार की संभावना का सुझाव देना।
ज्ञान संवर्धन तकनीकों के माध्यम से लघु-स्तरीय मॉडलों के प्रदर्शन में सुधार की संभावना का सुझाव देना।
हम उम्मीद करते हैं कि प्रकाशित कोड और डेटा अनुवर्ती अनुसंधान को प्रोत्साहित करेंगे।
Limitations:
बेंचमार्क श्रेणियां छह तक सीमित हो सकती हैं।
वास्तविक दुनिया में हानिकारक सामग्री की विविधता को पूरी तरह से प्रतिबिंबित नहीं कर सकता है।
प्रस्तावित ज्ञान संवर्धन तकनीक के सामान्यीकरण प्रदर्शन पर आगे अनुसंधान की आवश्यकता है।
अध्ययन के परिणामों की सामान्यीकरण क्षमता पर सीमाएं, जो एक विशिष्ट भाषा (चीनी) तक सीमित हैं।
👍