Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Benchmarking LLMs for Fine-Grained Code Review with Enriched Context in Practice

Created by
  • Haebom
Category
Empty

저자

Ruida Hu, Xinchen Wang, Xin-Cheng Wen, Zhao Zhang, Bo Jiang, Pengfei Gao, Chao Peng, Cuiyun Gao

개요

본 논문은 LLM 기반 코드 리뷰를 위한 새로운 벤치마크, ContextCRBench를 소개합니다. 기존 벤치마크의 세 가지 주요 한계점 (의미론적 맥락 부족, 데이터 품질 문제, 세분성 부족)을 해결하고자, ContextCRBench는 풍부한 맥락 정보를 제공하고, 고품질의 데이터를 사용하며, 세분화된 평가를 지원합니다. ContextCRBench는 153.7K개의 이슈와 풀 리퀘스트를 수집하고, 포괄적인 맥락 추출 및 다단계 데이터 필터링을 거쳐 67,910개의 항목을 포함합니다. 이 벤치마크는 hunk-level 품질 평가, line-level 결함 위치 파악, line-level 주석 생성을 포함한 세 가지 평가 시나리오를 지원합니다. 8개의 LLM 평가 결과, 텍스트 맥락이 코드 맥락보다 더 큰 성능 향상을 가져다주며, 현재 LLM은 인간 수준의 리뷰 능력에 미치지 못함을 보여줍니다. 또한, ByteDance에 적용되어 61.98%의 성능 향상을 보이며 산업적 유용성을 입증했습니다.

시사점, 한계점

시사점:
LLM 기반 코드 리뷰 벤치마크의 개선 필요성을 제기하고, 새로운 벤치마크를 제시함.
텍스트 맥락의 중요성을 강조하고, LLM 기반 코드 리뷰 성능 향상에 기여할 수 있음을 보여줌.
산업 환경에서의 벤치마크 적용 및 성능 향상을 통해 실질적인 유용성을 입증함.
한계점:
LLM의 성능이 아직 인간 수준에 미치지 못한다는 점을 지적하며, 추가적인 연구의 필요성을 시사함.
벤치마크 구축에 사용된 데이터의 편향성 가능성. (최상위 저장소에 국한)
특정 산업 환경(ByteDance)에서의 성공 사례만 제시되었으며, 다른 환경에서의 일반화 가능성에 대한 추가 연구 필요.
👍