본 논문은 기계 학습 평가에서의 재현성을 높이기 위한 연구로, 특히 인간의 주관적인 판단이 개입되는 지상 진실(ground truth) 데이터의 불일치 문제에 초점을 맞추고 있다. 제한된 예산 내에서 최적의 데이터 수집 전략을 찾기 위해, 항목 수($N$)와 각 항목당 응답 수($K$) 사이의 절충점을 분석한다. 다양한 범주형 데이터셋과 시뮬레이션된 분포를 사용하여, 고정된 예산($N \times K$) 내에서 기계 학습 모델의 성능을 신뢰성 있게 비교하기 위한 최적의 $(N, K)$ 구성을 결정한다. 연구 결과, 인간의 의견 불일치를 고려하더라도, 대부분의 데이터셋과 평가 지표에서 $N \times K$가 1000 이하(종종 훨씬 적음)로 충분함을 보여준다. 또한, 최적의 $N \times K$는 거의 항상 $K > 10$일 때 나타났으며, $K$와 $N$ 사이의 절충 관계는 평가 지표에 따라 달라진다는 점을 발견했다. 즉, 응답 분포에 더 민감한 지표는 더 높은 $K$ 값에서 더 나은 성능을 보였다. 본 논문의 방법론은 기계 학습 실무자들이 예산에 맞춰 최적의 지표와 항목 수, 그리고 각 항목당 주석 수를 선택하여 더 효과적인 테스트 데이터를 얻도록 돕는다.