Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
SPICE : un pipeline d'étiquetage SWE-Bench automatisé pour la clarté des problèmes, la couverture des tests et l'estimation des efforts
Created by
Haebom
Auteur
Gustavo A. Oliva, Gopi Krishnan Rajbahadur, Aaditya Bhatia, Haoxiang Zhang, Yihao Chen, Zhilong Chen, Arthur Leung, Dayi Lin, Boyuan Chen, Ahmed E. Hassan
Contour
SPICE est un pipeline automatisé et évolutif permettant de générer des jeux de données étiquetés de haute qualité, essentiels à l'apprentissage et à l'évaluation des modèles fondamentaux en génie logiciel. Il annote automatiquement les jeux de données de type SWE-bench en précisant la résolution des problèmes, la couverture des tests et l'estimation de l'effort. Il combine l'exploration de code contextuelle, l'invite basée sur des preuves et le consensus multipasse pour produire des étiquettes très proches des annotations d'experts. Il s'appuie sur l'expérience d'étiquetage de plus de 800 instances SWE-Gym et atteint une forte concordance avec les données vérifiées SWE-bench étiquetées manuellement. Il réduit considérablement le coût d'étiquetage de 1 000 instances, passant d'environ 100 000 $ pour une annotation manuelle à 5,10 $. Nous publions également SPICE Bench, un nouveau jeu de données composé de 6 802 instances étiquetées SPICE issues de 291 projets open source dans SWE-Gym.
Takeaways, Limitations
•
Takeaways:
◦
Réduisez considérablement le coût de création de grands ensembles de données de haute qualité pour la formation de modèles fondamentaux d'ingénierie logicielle.
◦
Contribuez à la communauté de recherche grâce aux outils SPICE et aux ensembles de données SPICE Bench (fournissant un ensemble de données plus de 13 fois plus grand que SWE-bench Verified).
◦
Obtenez une précision de niveau expert grâce à notre pipeline d'étiquetage automatisé.
•
Limitations:
◦
Les performances de SPICE peuvent varier en fonction des caractéristiques de la base de code utilisée.
◦
Les types d'annotations actuellement pris en charge peuvent être limités (clarté du problème, couverture des tests, estimation de l'effort).
◦
Comme il ne s’agit pas d’un système entièrement automatisé, certaines vérifications ou ajustements manuels peuvent être nécessaires (par exemple, un processus de consensus en plusieurs passes).