En este documento, presentamos DroidCollection , el conjunto de datos abiertos más completo para entrenar y evaluar detectores de código generados por máquinas . DroidCollection contiene más de un millón de muestras de código, siete lenguajes de programación, 43 salidas de modelos de codificación y al menos tres dominios de codificación del mundo real. Además de muestras generadas completamente por IA, también incluye código coescrito por humanos e IA, así como muestras adversarias diseñadas explícitamente para evadir la detección. Luego desarrollamos DroidDetect , un conjunto de detectores específicos del codificador entrenados en objetivos multitarea utilizando DroidCollection . Los resultados experimentales demuestran que el rendimiento de los detectores existentes no se generaliza más allá del estrecho conjunto de datos de entrenamiento a diversos dominios de codificación y lenguajes de programación. Además, si bien la mayoría de los detectores pueden comprometerse fácilmente humanizando la distribución de salida utilizando enfoques superficiales de alineación y provocación, demostramos que el entrenamiento con una pequeña cantidad de datos adversarios puede abordar fácilmente este problema. Finalmente, demostramos que el aprendizaje métrico y el remuestreo basado en la incertidumbre son métodos efectivos para mejorar el entrenamiento del detector en distribuciones potencialmente ruidosas.