Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Turning the Tide: Repository-based Code Reflection

Created by
  • Haebom

저자

Wei Zhang, Jian Yang, Jiaxi Yang, Ya Wang, Zhoujun Li, Zeyu Cui, Binyuan Hui, Junyang Lin

개요

본 논문은 코드 대규모 언어 모델(LLMs)의 코드 수정 능력 평가를 위한 새로운 벤치마크인 LiveRepoReflection을 제시합니다. 기존 벤치마크들이 단일 파일 기반의 코드 생성에 집중한 것과 달리, LiveRepoReflection은 다중 파일 저장소 환경에서의 코드 이해 및 생성 능력을 평가합니다. 6개 프로그래밍 언어를 포함하는 1,888개의 엄격하게 필터링된 테스트 케이스를 제공하며, 데이터 오염을 방지하고 반영 기능 개선의 어려움을 고려하여 설계되었습니다. 또한, 다양한 소스에서 추출하고 품질을 필터링한 대규모 instruction-tuning 데이터셋인 RepoReflection-Instruct를 만들어, 두 번의 질문과 답변 과정(코드 생성 및 오류 기반 수정)을 통해 RepoReflectionCoder를 훈련했습니다. 40개 이상의 LLMs의 성능을 평가하는 리더보드를 제공합니다.

시사점, 한계점

시사점:
다중 파일 저장소 환경에서의 코드 이해 및 생성 능력 평가를 위한 새로운 벤치마크 LiveRepoReflection 제공.
기존 벤치마크의 한계를 극복하고 더욱 현실적인 코드 수정 시나리오 평가 가능.
대규모 instruction-tuning 데이터셋 RepoReflection-Instruct 공개.
다양한 LLMs의 저장소 기반 코드 반영 성능 비교 및 분석 가능.
한계점:
LiveRepoReflection 벤치마크의 범위가 제한적일 수 있음 (특정 언어 및 유형의 저장소에 편향될 가능성).
RepoReflection-Instruct 데이터셋의 품질 및 다양성에 대한 추가적인 검증 필요.
실제 개발자의 코드 수정 행동과의 차이에 대한 추가적인 분석 필요.
👍