본 논문은 대규모 언어 모델(LLM)을 이용한 합성 데이터 생성을 통해 자동 프로그램 수리(APR)를 향상시키는 새로운 방법론을 제시합니다. 현재 APR 시스템은 다양한 프로그래밍 언어에 걸쳐 다양한 버그 유형을 포함하는 고품질 학습 데이터의 제한된 가용성에 의해 제약을 받습니다. 제안된 접근 방식은 합성 샘플 생성과 엄격한 품질 평가의 두 단계 과정을 통해 이러한 한계를 해결합니다. 여러 최첨단 LLM을 사용하여 12개의 프로그래밍 언어와 13개의 버그 범주에 걸쳐 약 30,000개의 버그가 있는 코드와 수정된 코드의 쌍을 생성했습니다. 그 후, 이러한 샘플은 정확성, 코드 품질, 보안, 성능 및 완전성이라는 다섯 가지 기준에 따라 교차 모델 평가를 거쳤습니다. VulRepair 테스트 세트 데이터셋에 대한 실험적 평가는 완벽한 예측률에서 통계적으로 유의미한 향상을 보여주었으며, 품질 필터링된 합성 데이터셋은 특정 시나리오에서 기준 및 실제 커밋 데이터 구성을 모두 능가했습니다. ANOVA 및 사후 Tukey의 HSD 분석을 포함한 엄격한 통계적 검정을 통해 방법론의 타당성을 검증했습니다. 또한, 최고 성능을 보이는 구성은 덜 계산 집약적인 디코딩 전략을 사용했음에도 불구하고 기존 시스템을 능가했습니다. 이 연구는 LLM이 자체 학습 데이터를 생성하고 평가하는 자기 부트스트래핑 패러다임을 구축하여 소프트웨어 엔지니어링 작업 전반에 걸친 데이터 부족 문제에 대한 접근 방식을 변화시키고 강력하고 적응력 있는 자동 코드 유지보수 도구 개발을 발전시킬 수 있습니다.