Sign In

Can We Enhance Bug Report Quality Using LLMs?: An Empirical Study of LLM-Based Bug Report Generation

Created by
  • Haebom
Category
Empty

저자

Jagrit Acharya, Gouri Ginde

개요

본 논문은 지시어 미세조정된 대규모 언어 모델(LLM)을 사용하여 비정형 버그 보고서를 표준 템플릿을 준수하는 고품질의 정형 버그 보고서로 자동 변환하는 가능성을 탐구합니다. Qwen 2.5, Mistral, Llama 3.2 세 가지 오픈소스 지시어 미세조정 LLM과 ChatGPT-4를 비교 평가하여 CTQRS, ROUGE, METEOR, SBERT 등의 지표를 측정했습니다. 실험 결과, 미세조정된 Qwen 2.5가 77%의 CTQRS 점수를 달성하여 미세조정된 Mistral(71%), Llama 3.2(63%), 3-shot 학습된 ChatGPT(75%)를 능가하는 성능을 보였습니다. Llama 3.2는 예상 동작 및 실제 동작 누락 필드 감지 정확도가 높았고, Qwen 2.5는 재현 단계 캡처 성능(F1 점수 76%)이 우수했습니다. Eclipse, GCC 등 다른 프로젝트에 대한 추가 테스트에서도 본 접근 방식의 일반화 성능이 확인되어 미지의 프로젝트 버그 보고서에서 최대 70%의 CTQRS 점수를 달성했습니다. 이러한 결과는 지시어 미세조정을 통한 자동화된 정형 버그 보고서 생성이 개발자의 수고를 줄이고 소프트웨어 유지보수 프로세스를 간소화할 수 있는 잠재력을 보여줍니다.

시사점, 한계점

시사점:
지시어 미세조정된 LLM을 활용하여 비정형 버그 보고서를 자동으로 정형화하여 개발자의 작업량을 줄일 수 있음을 보여줌.
Qwen 2.5 모델이 버그 보고서 정형화 작업에서 우수한 성능을 보임. 특히 재현 단계 정보 추출에 강점을 보임.
다양한 오픈소스 LLM의 성능을 비교 분석하여 모델 선택에 대한 가이드라인을 제공.
본 연구의 접근 방식이 다양한 소프트웨어 프로젝트에 일반화될 수 있음을 확인.
한계점:
실험에 사용된 LLM과 데이터셋의 한계로 인해 일반화된 성능을 보장하기 어려움.
특정 모델의 특정 분야(예: 예상 동작 및 실제 동작)에서의 성능이 다른 분야보다 상대적으로 낮을 수 있음.
실제 산업 환경에서의 적용 가능성 및 확장성에 대한 추가 연구 필요.
사용된 평가 지표(CTQRS, ROUGE, METEOR, SBERT) 외 다른 지표를 고려할 필요가 있음.
👍