본 논문은 생성형 AI 시스템의 재현성 및 신뢰성 문제를 해결하기 위해 경량의 확장 가능한 벤치마크인 GPR-bench를 제시합니다. GPR-bench는 영어와 일본어를 지원하는 8가지 작업 카테고리(텍스트 생성, 코드 생성, 정보 검색 등)와 각 카테고리별 10가지 시나리오(각 언어당 총 80개의 테스트 케이스)를 포함하는 개방형 데이터셋과 "LLM-as-a-Judge" 방식의 자동 평가 파이프라인으로 구성됩니다. gpt-4o-mini, o3-mini, o4-mini 세 가지 모델 버전과 두 가지 프롬프트 설정(기본 설정 및 간결한 작성 지시)을 이용한 실험 결과, 새로운 모델이 정확성을 개선하지만 그 차이는 미미하고 통계적으로 유의미하지 않다는 것을 보여줍니다. 반면, 간결한 작성 지시는 정확성 저하를 최소화하면서 간결성을 크게 향상시켰습니다. MIT 라이선스로 공개된 GPR-bench는 재현성 모니터링을 위한 진입 장벽을 낮추고, 빠르게 발전하는 언어 모델을 위한 벤치마크 설계에 대한 중요한 고려 사항을 제기합니다.