यह शोधपत्र तंत्रिका नेटवर्क के भीतर छिपे हुए दुर्भावनापूर्ण व्यवहार को एक प्रतिकूल खेल के रूप में प्रस्तुत करके उसका पता लगाने की समस्या का अध्ययन करता है। प्रतिकूल टीम सामान्य और दुर्भावनापूर्ण व्यवहार दोनों वाले डेटा पर प्रशिक्षित दो समान मॉडल बनाती है, जबकि नीली टीम दुर्भावनापूर्ण व्यवहार के बारे में सीमित जानकारी के साथ समझौता किए गए मॉडल की पहचान करने का प्रयास करती है। सीएनएन पर किए गए प्रयोगों से पता चला कि प्रतिकूल हमले-आधारित विधियों ने उच्च सटीकता (संकेतों के साथ 100%) प्राप्त की, जबकि अन्य तकनीकों ने अलग-अलग प्रदर्शन दिखाया। एलएलएम पर किए गए प्रयोगों से पता चला कि सीएनएन पर आधारित विधियों को लागू करना कठिन था, और प्रभावी एलएलएम ऑडिटिंग के लिए अवांछनीय वितरणों के बारे में संकेत आवश्यक हैं। इस अध्ययन का उद्देश्य ऑडिट गेम (मॉडल और डेटा सहित) को प्रकाशित करके बेहतर ऑडिट डिज़ाइन में योगदान देना है।