दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

$\Texttt{Droid}$: AI-जनरेटेड कोड डिटेक्शन के लिए एक संसाधन सूट

Created by
  • Haebom

लेखक

डेनियल ओरेल, इंद्रनील पॉल, इरीना गुरेविच, प्रेस्लाव नाकोव

रूपरेखा

इस शोधपत्र में, हम $\Textbf{$\texttt{DroidCollection}$}$ प्रस्तुत करते हैं, जो मशीन-जनित कोड डिटेक्टरों के प्रशिक्षण और मूल्यांकन के लिए सबसे व्यापक खुला डेटासेट है। $\texttt{DroidCollection}$ में दस लाख से ज़्यादा कोड नमूने, सात प्रोग्रामिंग भाषाएँ, 43 कोडिंग मॉडल आउटपुट और कम से कम तीन वास्तविक दुनिया के कोडिंग डोमेन शामिल हैं। पूरी तरह से AI-जनित नमूनों के अलावा, इसमें मानव-AI सह-लिखित कोड और पहचान से बचने के लिए स्पष्ट रूप से तैयार किए गए प्रतिकूल नमूने भी शामिल हैं। इसके बाद, हम $\textbf{$\texttt{DroidDetect}$}$ विकसित करते हैं, जो $\texttt{DroidCollection}$ का उपयोग करके बहु-कार्य उद्देश्यों पर प्रशिक्षित एनकोडर-विशिष्ट डिटेक्टरों का एक समूह है। प्रायोगिक परिणाम दर्शाते हैं कि मौजूदा डिटेक्टरों का प्रदर्शन संकीर्ण प्रशिक्षण डेटासेट से आगे विविध कोडिंग डोमेन और प्रोग्रामिंग भाषाओं तक सामान्यीकृत नहीं हो पाता है। इसके अलावा, जबकि सतही संकेत और संरेखण विधियों का उपयोग करके आउटपुट वितरण को मानवीय बनाने से अधिकांश डिटेक्टरों के साथ आसानी से समझौता किया जा सकता है, हम प्रदर्शित करते हैं कि प्रतिकूल डेटा की थोड़ी मात्रा के साथ प्रशिक्षण इस समस्या का आसानी से समाधान कर सकता है। अंत में, हम संभावित रूप से शोर वितरण में डिटेक्टर प्रशिक्षण में सुधार के साधन के रूप में मीट्रिक लर्निंग और अनिश्चितता-आधारित पुन: नमूनाकरण की प्रभावशीलता को प्रदर्शित करते हैं।

Takeaways, Limitations

Takeaways:
मशीन-जनरेटेड कोड डिटेक्टरों के प्रशिक्षण और मूल्यांकन के लिए एक बड़ा खुला डेटासेट ($\Texttt{DroidCollection}$) प्रदान करना।
हम विभिन्न डोमेन और प्रोग्रामिंग भाषाओं में सामान्यीकरण प्रदर्शन को बेहतर बनाने के लिए एक नया डिटेक्टर ($\Texttt{DroidDetect}$) प्रस्तुत करते हैं।
प्रतिकूल उदाहरणों का उपयोग करके डिटेक्टर मजबूती में सुधार करने की एक विधि प्रस्तुत की गई है।
मीट्रिक लर्निंग और अनिश्चितता-आधारित रीसैंपलिंग के माध्यम से डिटेक्टर प्रदर्शन में सुधार के लिए एक विधि प्रस्तुत की गई है।
Limitations:
$\Texttt{DroidCollection}$ की डेटा विविधता के बावजूद, यह सभी वास्तविक दुनिया के कोडिंग डोमेन और प्रोग्रामिंग भाषाओं को पूरी तरह से कवर नहीं कर सकता है।
प्रस्तावित डिटेक्टर का प्रदर्शन उपयोग किए गए डेटासेट पर निर्भर करता है और यह नए प्रकार के कोड जनरेशन मॉडल या प्रतिकूल हमलों के प्रति संवेदनशील हो सकता है।
प्रतिकूल उदाहरण निर्माण और रक्षा रणनीतियों पर आगे अनुसंधान की आवश्यकता है।
👍