Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Formations privées de premier cycle (GPT) pour les tests axés sur le LLM en développement logiciel et en apprentissage automatique

Created by
  • Haebom

Auteur

Jakub Jagielski, Consuelo Rojas, Markus Abel

Contour

Cet article étudie la capacité de Private GPT (GPT) à générer automatiquement du code de test exécutable à partir des exigences. Plus précisément, nous présentons une méthode permettant aux responsables produit ou aux services de veille stratégique (BI) de générer directement des critères testables grâce à LLM, en utilisant des critères d'acceptation formalisés dans le cadre d'épopées ou de récits couramment utilisés dans les processus de développement modernes. Nous évaluons la qualité des tests générés selon deux méthodes : LLM générant directement du code à partir des exigences et une étape intermédiaire utilisant la syntaxe Gherkin. Les résultats montrent que le processus en deux étapes produit de meilleurs résultats en termes de lisibilité et de bonnes pratiques de codage (nombre de lignes de code et utilisation de bibliothèques supplémentaires couramment utilisées en test). Nous évaluons spécifiquement l'efficacité des invites dans deux scénarios : un programme « Hello World » et un modèle de classification numérique, démontrant que des invites structurées conduisent à des résultats de test de meilleure qualité.

Takeaways, Limitations_

Takeaways:
Nous démontrons que LLM peut être utilisé pour générer automatiquement du code de test basé sur les exigences.
Nous démontrons qu’un processus en deux étapes utilisant la syntaxe Gherkin est efficace pour améliorer la qualité du code de test.
Nous avons constaté que les invites structurées avaient un impact significatif sur la qualité de la génération de code de test.
Offre la possibilité de rationaliser le processus de création de critères de test pour les propriétaires de produits ou la veille économique.
Limitations:
Les scénarios utilisés pour l'évaluation sont limités (un simple programme « Hello World » et un modèle de classification numérique).
Des recherches supplémentaires sont nécessaires sur la généralisabilité à différents types d’exigences et de systèmes complexes.
Manque d'explication spécifique sur les caractéristiques et les limites du GPT privé.
Manque de mesures quantitatives pour de « meilleurs résultats » (se basant simplement sur des évaluations subjectives de la lisibilité humaine et des meilleures pratiques de codage).
👍