Trong bài báo này, chúng tôi trình bày DroidCollection , bộ dữ liệu mở toàn diện nhất dùng để huấn luyện và đánh giá các bộ phát hiện mã do máy tạo ra . DroidCollection chứa hơn một triệu mẫu mã, bảy ngôn ngữ lập trình, 43 đầu ra mô hình mã hóa và ít nhất ba miền mã hóa thực tế. Ngoài các mẫu hoàn toàn do AI tạo ra, nó còn bao gồm mã do con người và AI đồng viết, cũng như các mẫu đối nghịch được tạo ra một cách rõ ràng để tránh bị phát hiện. Sau đó, chúng tôi phát triển DroidDetect , một bộ các bộ phát hiện dành riêng cho bộ mã hóa được huấn luyện trên các mục tiêu đa tác vụ bằng DroidCollection . Kết quả thử nghiệm chứng minh rằng hiệu suất của các bộ phát hiện hiện tại không thể khái quát hóa vượt ra ngoài tập dữ liệu huấn luyện hẹp cho các miền mã hóa và ngôn ngữ lập trình đa dạng. Hơn nữa, trong khi hầu hết các bộ phát hiện có thể dễ dàng bị ảnh hưởng bởi việc nhân bản hóa phân phối đầu ra bằng cách sử dụng các phương pháp nhắc nhở và căn chỉnh hời hợt, chúng tôi chứng minh rằng việc huấn luyện với một lượng nhỏ dữ liệu đối nghịch có thể dễ dàng giải quyết vấn đề này. Cuối cùng, chúng tôi chứng minh rằng học số liệu và lấy mẫu lại dựa trên sự không chắc chắn là những phương pháp hiệu quả để cải thiện việc huấn luyện bộ phát hiện trong các phân phối có khả năng bị nhiễu.