Agentic Bug Reproduction for Effective Automated Program Repair at Google
Created by
Haebom
저자
Runxiang Cheng, Michele Tufano, Jurgen Cito, Jose Cambronero, Pat Rondon, Renyao Wei, Aaron Sun, Satish Chandra
개요
본 논문은 Google의 내부 이슈 추적 시스템에서 추출한 실제 산업 버그를 중심으로 대규모 독점 코드베이스의 어려움을 고려하여 산업 환경 내에서 자동화된 버그 재현 테스트(BRT) 생성을 조사합니다. 기존의 최첨단 BRT 생성 기법인 LIBRO를 개선하고, 코드 편집을 위해 미세 조정된 대규모 언어 모델(LLM)을 사용하는 에이전트 기반 접근 방식인 BRT Agent를 제시합니다. BRT Agent는 Google 내부 이슈 추적기의 80개의 사람이 보고한 버그에 대해 LIBRO보다 훨씬 뛰어난 성능을 보여주며(28% 대 10%), 생성된 BRT를 Google의 자동 프로그램 복구(APR) 시스템에 통합하여 실제 가치를 조사합니다. BRT를 APR 시스템에 제공하면 타당한 수정이 있는 버그가 30% 증가하고, 생성된 BRT를 활용하여 APR 시스템에서 생성된 모든 수정 중 가장 유망한 수정을 선택하는 Ensemble Pass Rate(EPR) 지표를 도입하여 유망한 결과와 절충안을 보여줍니다. 예를 들어, EPR은 상위 1위 순위를 기준으로 20개의 후보 중에서 타당한 수정을 70%의 경우에 정확하게 선택합니다.
시사점, 한계점
•
시사점:
◦
대규모 산업 코드베이스에서 자동 BRT 생성의 실현 가능성을 보여줍니다.
◦
BRT Agent는 기존 기법인 LIBRO보다 훨씬 높은 성공률(28% vs 10%)을 달성했습니다.
◦
생성된 BRT는 자동 프로그램 복구 시스템의 효율성을 30% 향상시켰습니다.
◦
EPR 지표는 APR 시스템에서 생성된 수정 중 가장 유망한 수정을 효과적으로 선택하는 데 도움을 줍니다.
•
한계점:
◦
Google 내부 데이터에 기반한 평가로, 다른 환경에서의 일반화 가능성은 추가 연구가 필요합니다.
◦
28%의 성공률은 여전히 개선의 여지가 있으며, 더 높은 정확도를 달성하기 위한 추가 연구가 필요합니다.
◦
EPR 지표의 성능은 상위 순위에 의존하며, 낮은 순위의 수정을 평가하는 방법에 대한 추가 연구가 필요합니다.