본 논문은 대규모 언어 모델(LLM)의 지시사항 따르기 능력 평가에서 LLM을 판단자로 사용하는 기존 방식의 편향성 문제를 지적하고, 이를 해결하기 위해 인간이 작성한 응답을 활용한 새로운 평가 방법을 제시합니다. 다양한 자동 평가 방법을 실험하여 인간 작성 응답이 평가 신뢰도를 향상시키는 것을 확인하고(최대 3.2% 향상), 모델 생성 응답과는 다른 관점을 제공함을 발견했습니다. 이를 바탕으로 11가지 작업 분야에 걸쳐 4,258개의 샘플로 구성된 새로운 평가 벤치마크 HREF(Human Response-Guided Evaluation of Instruction Following)를 개발했습니다. HREF는 각 분야에 가장 신뢰할 수 있는 방법을 선택하는 복합 평가 설정을 사용하며, 개별 작업 성능을 강조하고 오염되지 않은 평가를 제공합니다. 또한 평가 집합 크기, 판정 모델, 기준 모델, 프롬프트 템플릿 등 HREF의 주요 설계 선택 사항의 영향을 연구하고, HREF의 비공개 평가 집합에 대한 LLM을 평가하는 실시간 순위표를 제공합니다.