इस शोधपत्र में, हम $\Textbf{$\texttt{DroidCollection}$}$ प्रस्तुत करते हैं, जो मशीन-जनित कोड डिटेक्टरों के प्रशिक्षण और मूल्यांकन के लिए सबसे व्यापक खुला डेटासेट है। $\texttt{DroidCollection}$ में दस लाख से ज़्यादा कोड नमूने, सात प्रोग्रामिंग भाषाएँ, 43 कोडिंग मॉडल आउटपुट और कम से कम तीन वास्तविक दुनिया के कोडिंग डोमेन शामिल हैं। पूरी तरह से AI-जनित नमूनों के अलावा, इसमें मानव-AI सह-लिखित कोड और पहचान से बचने के लिए स्पष्ट रूप से तैयार किए गए प्रतिकूल नमूने भी शामिल हैं। इसके बाद, हम $\textbf{$\texttt{DroidDetect}$}$ विकसित करते हैं, जो $\texttt{DroidCollection}$ का उपयोग करके बहु-कार्य उद्देश्यों पर प्रशिक्षित एनकोडर-विशिष्ट डिटेक्टरों का एक समूह है। प्रायोगिक परिणाम दर्शाते हैं कि मौजूदा डिटेक्टरों का प्रदर्शन संकीर्ण प्रशिक्षण डेटासेट से आगे विविध कोडिंग डोमेन और प्रोग्रामिंग भाषाओं तक सामान्यीकृत नहीं हो पाता है। इसके अलावा, जबकि सतही संकेत और संरेखण विधियों का उपयोग करके आउटपुट वितरण को मानवीय बनाने से अधिकांश डिटेक्टरों के साथ आसानी से समझौता किया जा सकता है, हम प्रदर्शित करते हैं कि प्रतिकूल डेटा की थोड़ी मात्रा के साथ प्रशिक्षण इस समस्या का आसानी से समाधान कर सकता है। अंत में, हम संभावित रूप से शोर वितरण में डिटेक्टर प्रशिक्षण में सुधार के साधन के रूप में मीट्रिक लर्निंग और अनिश्चितता-आधारित पुन: नमूनाकरण की प्रभावशीलता को प्रदर्शित करते हैं।