यह शोधपत्र त्रुटि-प्रवण इकाई परीक्षण इनपुट उत्पन्न करते समय, बिना सही उत्तर के इकाई परीक्षण आउटपुट का सटीक पूर्वानुमान लगाने के बीच के अंतर को उजागर करता है। इस समस्या का समाधान करने के लिए, हम UTGen का प्रस्ताव करते हैं, जो LLM को त्रुटि-प्रवण इकाई परीक्षण इनपुट उत्पन्न करने और कार्य विवरणों के आधार पर अपेक्षित आउटपुट को सही करने के लिए प्रशिक्षित करता है। चूँकि मॉडल-जनित परीक्षणों में शोर हो सकता है, इसलिए हम UTDebug के माध्यम से परीक्षण-समय गणनाओं का लाभ उठाकर UT आउटपुट पूर्वानुमानों को बेहतर बनाते हैं। इसके अलावा, हम ओवरफिटिंग को रोकने और LLM डिबगिंग को प्रभावी ढंग से समर्थन देने के लिए कई जनित UT के आधार पर संपादनों को सत्यापित और बैकट्रैक करते हैं। प्रायोगिक परिणाम दर्शाते हैं कि त्रुटि-प्रवण UT इनपुट और सही UT आउटपुट दोनों को मापने वाले मेट्रिक्स पर UTGen अन्य LLM-आधारित बेसलाइन मॉडलों से 7.59% बेहतर प्रदर्शन करता है। UTDebug के साथ संयुक्त होने पर, यह अन्य LLM-आधारित UT जनरेशन बेसलाइन मॉडलों की तुलना में, HumanEvalFix और MBPP+ के अधिक चुनौतीपूर्ण डिबगिंग पार्टिशन पर Qwen2.5 32B की पास@1 सटीकता को क्रमशः 3.17% और 12.35% तक बेहतर बनाता है। इसके अलावा, Qwen2.5 32B पर आधारित UTGen मॉडल से प्राप्त फीडबैक ने GPT-4o जैसे अत्याधुनिक LLM के डिबगिंग प्रदर्शन को 13.8% तक बेहतर बनाया। अंत में, UTGen दर्शाता है कि HumanEval+ के सर्वश्रेष्ठ 10 नमूनों के साथ Qwen2.5 7B का उपयोग करके, यह कोड शुद्धता निर्धारित करने में अत्याधुनिक 8B रिवॉर्ड मॉडल से 4.43% बेहतर प्रदर्शन करता है।