본 논문은 지시어 미세조정된 대규모 언어 모델(LLM)을 사용하여 비정형 버그 보고서를 표준 템플릿을 준수하는 고품질의 정형 버그 보고서로 자동 변환하는 가능성을 탐구합니다. Qwen 2.5, Mistral, Llama 3.2 세 가지 오픈소스 지시어 미세조정 LLM과 ChatGPT-4를 비교 평가하여 CTQRS, ROUGE, METEOR, SBERT 등의 지표를 측정했습니다. 실험 결과, 미세조정된 Qwen 2.5가 77%의 CTQRS 점수를 달성하여 미세조정된 Mistral(71%), Llama 3.2(63%), 3-shot 학습된 ChatGPT(75%)를 능가하는 성능을 보였습니다. Llama 3.2는 예상 동작 및 실제 동작 누락 필드 감지 정확도가 높았고, Qwen 2.5는 재현 단계 캡처 성능(F1 점수 76%)이 우수했습니다. Eclipse, GCC 등 다른 프로젝트에 대한 추가 테스트에서도 본 접근 방식의 일반화 성능이 확인되어 미지의 프로젝트 버그 보고서에서 최대 70%의 CTQRS 점수를 달성했습니다. 이러한 결과는 지시어 미세조정을 통한 자동화된 정형 버그 보고서 생성이 개발자의 수고를 줄이고 소프트웨어 유지보수 프로세스를 간소화할 수 있는 잠재력을 보여줍니다.