본 논문은 코드 대규모 언어 모델(LLMs)의 코드 수정 능력 평가를 위한 새로운 벤치마크인 LiveRepoReflection을 제시합니다. 기존 벤치마크들이 단일 파일 기반의 코드 생성에 집중한 것과 달리, LiveRepoReflection은 다중 파일 저장소 환경에서의 코드 이해 및 생성 능력을 평가합니다. 6개 프로그래밍 언어를 포함하는 1,888개의 엄격하게 필터링된 테스트 케이스를 제공하며, 데이터 오염을 방지하고 반영 기능 개선의 어려움을 고려하여 설계되었습니다. 또한, 다양한 소스에서 추출하고 품질을 필터링한 대규모 instruction-tuning 데이터셋인 RepoReflection-Instruct를 만들어, 두 번의 질문과 답변 과정(코드 생성 및 오류 기반 수정)을 통해 RepoReflectionCoder를 훈련했습니다. 40개 이상의 LLMs의 성능을 평가하는 리더보드를 제공합니다.