इस पत्र में, हम DroidCollection प्रस्तुत करते हैं , जो मशीन-जनरेटेड कोड डिटेक्टरों के प्रशिक्षण और मूल्यांकन के लिए सबसे व्यापक खुला डेटासेट है । DroidCollection में दस लाख से अधिक कोड नमूने, सात प्रोग्रामिंग भाषाएं, 43 कोडिंग मॉडल आउटपुट और कम से कम तीन वास्तविक दुनिया कोडिंग डोमेन हैं। पूरी तरह से AI-जनरेटेड नमूनों के अलावा, इसमें मनुष्यों और AI द्वारा सह-लिखित कोड भी शामिल हैं, साथ ही साथ पता लगाने से बचने के लिए स्पष्ट रूप से तैयार किए गए प्रतिकूल नमूने भी हैं। फिर हम DroidDetect विकसित करते हैं , जो DroidCollection का उपयोग करके बहु-कार्य उद्देश्यों पर प्रशिक्षित एनकोडर-विशिष्ट डिटेक्टरों का एक सेट है। प्रायोगिक परिणाम दर्शाते हैं कि मौजूदा डिटेक्टरों का प्रदर्शन संकीर्ण प्रशिक्षण डेटा सेट से परे विविध कोडिंग डोमेन और प्रोग्रामिंग भाषाओं में सामान्यीकृत करने में विफल रहता है अंत में, हम प्रदर्शित करते हैं कि मीट्रिक लर्निंग और अनिश्चितता-आधारित पुनः नमूनाकरण संभावित शोर वितरण में डिटेक्टर प्रशिक्षण में सुधार के लिए प्रभावी तरीके हैं।