Dans cet article, nous présentons $\textbf{$\texttt{DroidCollection}$}$, l'ensemble de données ouvert le plus complet pour l'entraînement et l'évaluation de détecteurs de code générés par machine. $\texttt{DroidCollection}$ contient plus d'un million d'échantillons de code, sept langages de programmation, 43 sorties de modèles de codage et au moins trois domaines de codage réels. Outre des échantillons entièrement générés par l'IA, il inclut également du code co-écrit par des humains et des IA, ainsi que des échantillons antagonistes explicitement conçus pour échapper à la détection. Nous développons ensuite $\textbf{$\texttt{DroidDetect}$}$, une suite de détecteurs spécifiques aux encodeurs, entraînés sur des objectifs multitâches à l'aide de $\texttt{DroidCollection}$. Les résultats expérimentaux démontrent que les performances des détecteurs existants ne se généralisent pas au-delà de l'ensemble restreint de données d'entraînement à divers domaines de codage et langages de programmation. De plus, alors que la plupart des détecteurs sont facilement compromis par l'humanisation de la distribution de sortie à l'aide d'approches superficielles d'incitation et d'alignement, nous démontrons qu'un entraînement avec une petite quantité de données contradictoires peut facilement résoudre ce problème. Enfin, nous démontrons l'efficacité de l'apprentissage métrique et du rééchantillonnage basé sur l'incertitude pour améliorer l'entraînement des détecteurs dans des distributions potentiellement bruyantes.