본 논문은 오류를 드러내는 단위 테스트 입력값을 생성하는 동시에 정답 없이 단위 테스트 출력값을 정확하게 예측하는 데 있어 상충관계가 있음을 밝힙니다. 이를 해결하기 위해, 과제 설명을 기반으로 오류를 드러내는 단위 테스트 입력값과 올바른 예상 출력값을 생성하도록 LLMs을 학습시키는 UTGen을 제안합니다. 모델이 생성한 테스트는 노이즈가 포함될 수 있으므로, UTDebug를 통해 테스트 시간 계산을 활용하여 UT 출력 예측을 개선하고, 여러 생성된 UT를 기반으로 편집을 검증하고 되돌아가 과적합을 방지하며, LLM의 디버깅을 효과적으로 지원합니다. 실험 결과, UTGen은 오류를 드러내는 UT 입력과 정확한 UT 출력 모두를 측정하는 지표에서 다른 LLM 기반 기준 모델보다 7.59% 향상된 성능을 보였습니다. UTDebug와 함께 사용하면 HumanEvalFix와 MBPP+의 더 어려운 디버깅 분할에서 Qwen2.5 32B의 pass@1 정확도를 다른 LLM 기반 UT 생성 기준 모델보다 각각 3.17%와 12.35% 이상 향상시켰습니다. 또한 Qwen2.5 32B 기반 UTGen 모델의 피드백은 GPT-4o와 같은 최첨단 LLM의 디버깅을 13.8% 향상시켰습니다. 마지막으로 UTGen은 HumanEval+에서 최고의 10개 샘플링을 사용하는 Qwen2.5 7B를 사용하여 최첨단 8B 보상 모델보다 4.43% 우수한 코드 정확성 판단 모델임을 보여줍니다.