Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

$\Texttt{Droid}$ : une suite de ressources pour la détection de code généré par l'IA

Created by
  • Haebom

Auteur

Daniil Orel, Indraneil Paul, Iryna Gurevych, Preslav Nakov

Contour

Dans cet article, nous présentons DroidCollection , l'ensemble de données ouvert le plus complet pour l'entraînement et l'évaluation de détecteurs de code générés par machine . DroidCollection contient plus d'un million d'échantillons de code, sept langages de programmation, 43 sorties de modèles de codage et au moins trois domaines de codage réels. Outre des échantillons entièrement générés par l'IA, il inclut également du code co-écrit par des humains et l'IA, ainsi que des échantillons antagonistes explicitement conçus pour échapper à la détection. Nous développons ensuite DroidDetect , un ensemble de détecteurs spécifiques aux encodeurs, entraînés sur des objectifs multitâches à l'aide de DroidCollection . Les résultats expérimentaux démontrent que les performances des détecteurs existants ne se généralisent pas au-delà du jeu de données d'entraînement restreint à divers domaines de codage et langages de programmation. De plus, si la plupart des détecteurs peuvent être facilement compromis en humanisant la distribution des sorties à l'aide d'approches superficielles d'incitation et d'alignement, nous démontrons qu'un entraînement avec une petite quantité de données antagonistes peut facilement résoudre ce problème. Enfin, nous démontrons que l’apprentissage métrique et le rééchantillonnage basé sur l’incertitude sont des méthodes efficaces pour améliorer la formation des détecteurs dans des distributions potentiellement bruyantes.

Takeaways, Limitations

Takeaways:
Fournir un ensemble de données ouvert à grande échelle (DroidCollection) pour la formation et l'évaluation des détecteurs de code générés par machine.
Aborder le problème des faibles performances de généralisation des détecteurs existants dans divers domaines de codage et langages de programmation.
Suggérant la possibilité d’améliorer les performances du détecteur en utilisant des exemples contradictoires.
Démontrer l’efficacité des techniques d’apprentissage métrique et de rééchantillonnage basées sur l’incertitude.
Limitations:
Malgré la diversité de DroidCollection, il se peut qu'il ne couvre pas entièrement tous les domaines de codage et langages de programmation du monde réel.
La méthode de génération d’exemples contradictoires proposée peut ne pas couvrir tous les types de techniques d’évasion.
L’efficacité des techniques d’apprentissage métrique et de rééchantillonnage basées sur l’incertitude peut varier en fonction de la distribution des données.
👍