본 논문은 LLM 기반 코드 리뷰를 위한 새로운 벤치마크, ContextCRBench를 소개합니다. 기존 벤치마크의 세 가지 주요 한계점 (의미론적 맥락 부족, 데이터 품질 문제, 세분성 부족)을 해결하고자, ContextCRBench는 풍부한 맥락 정보를 제공하고, 고품질의 데이터를 사용하며, 세분화된 평가를 지원합니다. ContextCRBench는 153.7K개의 이슈와 풀 리퀘스트를 수집하고, 포괄적인 맥락 추출 및 다단계 데이터 필터링을 거쳐 67,910개의 항목을 포함합니다. 이 벤치마크는 hunk-level 품질 평가, line-level 결함 위치 파악, line-level 주석 생성을 포함한 세 가지 평가 시나리오를 지원합니다. 8개의 LLM 평가 결과, 텍스트 맥락이 코드 맥락보다 더 큰 성능 향상을 가져다주며, 현재 LLM은 인간 수준의 리뷰 능력에 미치지 못함을 보여줍니다. 또한, ByteDance에 적용되어 61.98%의 성능 향상을 보이며 산업적 유용성을 입증했습니다.