[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

AI-Assisted Fixes to Code Review Comments at Scale

Created by
  • Haebom

저자

Chandra Maddila, Negar Ghorbani, James Saindon, Parth Thakkar, Vijayaraghavan Murali, Rui Abreu, Jingyue Shen, Brian Zhou, Nachiappan Nagappan, Peter C. Rigby

개요

Meta는 매주 수만 건의 코드 리뷰 코멘트를 처리합니다. 본 논문은 대규모로 코드 리뷰어 코멘트에 대한 AI 지원 수정을 제공하는 Metamate for Code Review (MetaMateCR) 시스템을 개발한 과정과 결과를 제시합니다. 64,000개의 데이터 포인트를 사용하여 Llama 모델을 미세 조정했으며, 오프라인 결과가 만족스러운 수준에 도달한 후 프로덕션 환경에 배포했습니다. GPT-4o와의 비교 결과, 개발된 LargeLSFT 모델이 정확한 패치를 생성하는 비율이 68%로 GPT-4o보다 9%p 높았으며, 더 최신의 Hack 함수를 사용하는 것으로 나타났습니다. 안전성 테스트를 통해 AI 패치 제안이 리뷰 시간에 미치는 영향을 평가하고, UX 개선을 통해 리뷰 시간 지연 문제를 해결했습니다. 프로덕션 환경 배포 결과, LargeLSFT 모델은 GPT-4o보다 ActionableToApplied 비율이 9.2%p 향상된 19.7%를 기록했습니다.

시사점, 한계점

시사점:
대규모 코드 리뷰 환경에서 AI 기반 자동 패치 생성 시스템의 효과적인 구축 및 운영 가능성을 보여줌.
안전성 테스트 및 UX 개선을 통한 AI 시스템의 실제 적용 가능성을 높이는 방법 제시.
Llama 모델을 기반으로 GPT-4o를 능가하는 성능을 달성.
AI 지원 시스템의 성공적인 대규모 배포 사례 제시.
한계점:
Meta 내부 데이터에 기반한 결과이므로 다른 환경에서의 일반화 가능성은 제한적일 수 있음.
안전성 테스트 과정에서 초기 UX 디자인의 문제점이 드러났다는 점은 향후 유사 시스템 개발 시 주의가 필요함을 시사.
ActionableToApplied 비율이 20% 미만으로, 모든 코드 리뷰 코멘트에 대해 AI가 효과적으로 패치를 생성하는 것은 아님.
👍