본 논문은 소프트웨어 엔지니어링에서 코드 생성, 검토, 평가에 점점 더 많이 사용되는 대규모 언어 모델(LLM)의 신뢰성 있는 평가자로서의 자리매김이 여전히 과제임을 지적합니다. 기존의 자동화된 방법은 코드 품질의 미세한 차이를 구별하지 못하고, 사람에 의한 평가는 비용이 많이 들고 주관적이며 확장성이 떨어지기 때문입니다. 이에 본 논문에서는 LLM 기반 평가자를 다양한 소프트웨어 엔지니어링 작업에 걸쳐 벤치마킹하기 위한 자동화 프레임워크인 REFINE(Ranking Evaluators for Fine-grained Nuanced Evaluation)을 제시합니다. REFINE은 계층적 데이터셋 생성 모듈과 평가자 테스터 모듈로 구성되며, 점진적으로 품질이 저하되는 아티팩트를 자동으로 합성하고, 각 평가자 구성의 순위가 기대 순위와 얼마나 일치하는지 측정하여 정량화합니다. 특히, 사용자가 저하의 세분성을 조정하여 평가자 구성을 점진적으로 개선할 수 있다는 점이 특징입니다. IBM의 내부 개발 워크플로에 통합되어 COBOL 코드 생성, 변환, 요약 작업에 적용되었으며, 일부 코딩 작업에서 일치 점수를 0.7 미만에서 0.9 이상으로 향상시키는 LLM 기반 평가자 구성을 식별하는 데 성공했습니다.