दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

$\Texttt{Droid}$: AI-जनरेटेड कोड डिटेक्शन के लिए एक संसाधन सूट

Created by
  • Haebom

लेखक

डेनियल ओरेल, इंद्रनील पॉल, इरीना गुरेविच, प्रेस्लाव नाकोव

रूपरेखा

इस पत्र में, हम DroidCollection प्रस्तुत करते हैं , जो मशीन-जनरेटेड कोड डिटेक्टरों के प्रशिक्षण और मूल्यांकन के लिए सबसे व्यापक खुला डेटासेट है । DroidCollection में दस लाख से अधिक कोड नमूने, सात प्रोग्रामिंग भाषाएं, 43 कोडिंग मॉडल आउटपुट और कम से कम तीन वास्तविक दुनिया कोडिंग डोमेन हैं। पूरी तरह से AI-जनरेटेड नमूनों के अलावा, इसमें मनुष्यों और AI द्वारा सह-लिखित कोड भी शामिल हैं, साथ ही साथ पता लगाने से बचने के लिए स्पष्ट रूप से तैयार किए गए प्रतिकूल नमूने भी हैं। फिर हम DroidDetect विकसित करते हैं , जो DroidCollection का उपयोग करके बहु-कार्य उद्देश्यों पर प्रशिक्षित एनकोडर-विशिष्ट डिटेक्टरों का एक सेट है। प्रायोगिक परिणाम दर्शाते हैं कि मौजूदा डिटेक्टरों का प्रदर्शन संकीर्ण प्रशिक्षण डेटा सेट से परे विविध कोडिंग डोमेन और प्रोग्रामिंग भाषाओं में सामान्यीकृत करने में विफल रहता है अंत में, हम प्रदर्शित करते हैं कि मीट्रिक लर्निंग और अनिश्चितता-आधारित पुनः नमूनाकरण संभावित शोर वितरण में डिटेक्टर प्रशिक्षण में सुधार के लिए प्रभावी तरीके हैं।

Takeaways, Limitations

Takeaways:
मशीन-जनरेटेड कोड डिटेक्टरों के प्रशिक्षण और मूल्यांकन के लिए बड़े पैमाने पर खुला डेटासेट (DroidCollection) प्रदान करना।
विभिन्न कोडिंग डोमेन और प्रोग्रामिंग भाषाओं में मौजूदा डिटेक्टरों के खराब सामान्यीकरण प्रदर्शन के मुद्दे को संबोधित करना।
प्रतिकूल उदाहरणों का उपयोग करके डिटेक्टर प्रदर्शन में सुधार की संभावना का सुझाव देना।
मीट्रिक लर्निंग और अनिश्चितता-आधारित पुनः नमूनाकरण तकनीकों की प्रभावशीलता का प्रदर्शन करना।
Limitations:
DroidCollection की विविधता के बावजूद, यह सभी वास्तविक दुनिया के कोडिंग डोमेन और प्रोग्रामिंग भाषाओं को पूरी तरह से कवर नहीं कर सकता है।
प्रस्तावित प्रतिकूल उदाहरण निर्माण विधि सभी प्रकार की चोरी तकनीकों को कवर नहीं कर सकती है।
मीट्रिक लर्निंग और अनिश्चितता-आधारित पुनः नमूनाकरण तकनीकों की प्रभावशीलता डेटा वितरण के आधार पर भिन्न हो सकती है।
👍