Cet article révèle un compromis entre la génération d'entrées de tests unitaires sujettes aux erreurs et la prédiction précise de sorties de tests unitaires sans réponse correcte. Pour résoudre ce problème, nous proposons UTGen, qui entraîne les LLM à générer des entrées de tests unitaires sujettes aux erreurs et à corriger les sorties attendues en fonction des descriptions de tâches. Les tests générés par le modèle pouvant contenir du bruit, nous améliorons les prédictions de sortie des UT en exploitant les calculs de temps de test via UTDebug. De plus, nous vérifions et rétro-analysons les modifications basées sur plusieurs UT générés afin d'éviter le surapprentissage et de soutenir efficacement le débogage des LLM. Les résultats expérimentaux montrent qu'UTGen surpasse de 7,59 % les autres modèles de référence basés sur les LLM sur les métriques mesurant à la fois les entrées de UT sujettes aux erreurs et les sorties correctes des UT. Associé à UTDebug, il améliore la précision pass@1 de Qwen2.5 32B de 3,17 % et 12,35 %, respectivement, sur les partitions de débogage plus complexes de HumanEvalFix et MBPP+ par rapport aux autres modèles de base de génération UT basés sur LLM. De plus, les retours du modèle UTGen basé sur Qwen2.5 32B ont amélioré de 13,8 % les performances de débogage des LLM de pointe, tels que GPT-4o. Enfin, UTGen démontre qu'en utilisant Qwen2.5 7B avec les 10 meilleurs échantillons de HumanEval+, il surpasse de 4,43 % le modèle de récompense 8B de pointe pour déterminer l'exactitude du code.