Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

A Note on Code Quality Score: LLMs for Maintainable Large Codebases

Created by
  • Haebom

저자

Sherman Wong, Jalaj Bhandari, Leo Zhou Fan Yang, Xylan Xu, Yi Zhuang, Cem Cayiroglu, Payal Bhuptani, Sheela Yadawad, Hung Duong

개요

본 논문은 대규모 소프트웨어 시스템에서 다수의 엔지니어가 동시에 코드베이스 작업을 할 때 발생하는 코드 품질 문제를 자동으로 감지하고 실행 가능한 통찰력을 제공하는 코드 품질 점수(CQS) 시스템을 소개합니다. CQS 시스템은 SFT 및 오프라인 RL 방식으로 미세 조정된 두 개의 Llama3 모델을 기반으로 합니다. 하나는 코딩 모범 사례와 관련된 일반적인 코드 품질 문제를 감지하고, 다른 하나는 LLM이 생성한 코드 검토에 대한 유용한 비평을 제공합니다. 잘못된 응답이나 환각을 걸러내기 위해 수작업으로 만든 규칙을 계층화하여 사용자 경험을 향상시켰습니다. 오프라인 평가 결과, CQS 시스템은 유효한 문제를 식별하는 뛰어난 정밀도를 달성했습니다. 산업 규모 환경에서 개발자들에게 배포되어 일주일 단위로 60%의 사용자 유용성 비율을 달성하여 실제 환경에서의 효과를 입증했습니다. 본 논문에서는 CQS 시스템의 세부 정보와 LLM 미세 조정을 위한 교육 데이터를 만드는 데 대한 개발자 피드백 활용에 대한 내용을 제시합니다.

시사점, 한계점

시사점:
대규모 소프트웨어 시스템의 코드 품질 향상에 기여하는 자동화된 시스템 제시
Llama3 모델 기반의 효과적인 코드 품질 문제 감지 및 코드 검토 기능 제공
실제 산업 환경에서의 효과성 검증 (60% 주간 사용자 유용성)
LLM 미세 조정을 위한 개발자 피드백 활용 전략 제시
한계점:
논문에서 구체적인 오프라인 평가 지표(정밀도 외) 제시 부족
수작업 규칙에 대한 상세한 설명 부족
장기적인 사용성 및 유지보수에 대한 고려 사항 미흡
다양한 프로그래밍 언어 및 코드 스타일 지원 범위에 대한 정보 부족
👍