Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

$\Texttt{Droid}$: Un conjunto de recursos para la detección de código generado por IA

Created by
  • Haebom

Autor

Daniil Orel, Indraneil Paul, Iryna Gurevych, Preslav Nakov

Describir

En este documento, presentamos DroidCollection , el conjunto de datos abiertos más completo para entrenar y evaluar detectores de código generados por máquinas . DroidCollection contiene más de un millón de muestras de código, siete lenguajes de programación, 43 salidas de modelos de codificación y al menos tres dominios de codificación del mundo real. Además de muestras generadas completamente por IA, también incluye código coescrito por humanos e IA, así como muestras adversarias diseñadas explícitamente para evadir la detección. Luego desarrollamos DroidDetect , un conjunto de detectores específicos del codificador entrenados en objetivos multitarea utilizando DroidCollection . Los resultados experimentales demuestran que el rendimiento de los detectores existentes no se generaliza más allá del estrecho conjunto de datos de entrenamiento a diversos dominios de codificación y lenguajes de programación. Además, si bien la mayoría de los detectores pueden comprometerse fácilmente humanizando la distribución de salida utilizando enfoques superficiales de alineación y provocación, demostramos que el entrenamiento con una pequeña cantidad de datos adversarios puede abordar fácilmente este problema. Finalmente, demostramos que el aprendizaje métrico y el remuestreo basado en la incertidumbre son métodos efectivos para mejorar el entrenamiento del detector en distribuciones potencialmente ruidosas.

Takeaways, Limitations

Takeaways:
Proporcionar un conjunto de datos abiertos a gran escala (DroidCollection) para entrenar y evaluar detectores de código generados por máquina.
Abordar el problema del bajo rendimiento de generalización de los detectores existentes en varios dominios de codificación y lenguajes de programación.
Sugerir la posibilidad de mejorar el rendimiento del detector mediante el uso de ejemplos adversarios.
Demostrar la eficacia del aprendizaje métrico y de las técnicas de remuestreo basadas en la incertidumbre.
Limitations:
A pesar de la diversidad de DroidCollection, es posible que no cubra por completo todos los dominios de codificación y lenguajes de programación del mundo real.
Es posible que el método de generación de ejemplos adversariales propuesto no cubra todos los tipos de técnicas de evasión.
La eficacia del aprendizaje métrico y de las técnicas de remuestreo basadas en la incertidumbre puede variar según la distribución de los datos.
👍