यह शोधपत्र डीप लर्निंग मॉडल प्रशिक्षण में प्रयुक्त डेटासेट में पारदर्शिता की कमी से उत्पन्न गोपनीयता और कॉपीराइट संबंधी समस्याओं के समाधान हेतु डेटासेट ऑडिटिंग तकनीकों का अध्ययन करता है। हम प्रतिकूल हमलों के प्रति मौजूदा डेटासेट ऑडिटिंग तकनीकों की कमज़ोरियों का विश्लेषण करते हैं और एक नई वर्गीकरण प्रणाली प्रस्तावित करते हैं जो उन्हें आंतरिक विशेषता (IF) और बाह्य विशेषता (EF)-आधारित विधियों में वर्गीकृत करती है। इसके अतिरिक्त, हम दो प्रमुख आक्रमण प्रकारों को परिभाषित करते हैं: चोरी के हमले, जो डेटासेट के उपयोग को छिपाते हैं, और जालसाज़ी के हमले, जो अप्रयुक्त डेटासेट पर झूठा दावा करते हैं। हम प्रत्येक प्रकार के लिए व्यवस्थित आक्रमण रणनीतियों का प्रस्ताव करते हैं (चोरी के हमलों के लिए पृथक्करण, निष्कासन और पता लगाना; जालसाज़ी के हमलों के लिए प्रतिकूल उदाहरण-आधारित विधियाँ)। अंत में, हम एक नया मानक, DATABench प्रस्तुत करते हैं, जिसमें 17 चोरी के हमले, पाँच जालसाज़ी के हमले और नौ प्रतिनिधि ऑडिटिंग तकनीकें शामिल हैं। हमारे मूल्यांकन परिणाम दर्शाते हैं कि मौजूदा ऑडिटिंग तकनीकें प्रतिकूल वातावरण में पर्याप्त रूप से मज़बूत या विभेदक नहीं हैं।