본 논문은 다중 선택형 평가의 한계를 지적하고, 생성형 평가 방식인 '답변 매칭'을 제안합니다. 다중 선택형 평가는 객관적이고 자동화가 용이하지만, 질문을 보지 않고도 정답을 유추할 수 있는 단점이 있습니다. 반면 답변 매칭은 모델이 자유 형식으로 답변을 생성하고, 참조 답변과의 일치 여부를 최신 언어 모델로 판단하는 방식입니다. MMLU-Pro와 GPQA-Diamond 데이터셋을 이용하여 인간 평가와 각 평가 방식의 일치도를 측정한 결과, 소규모 모델을 사용하더라도 답변 매칭은 인간 간의 일치도에 근접한 높은 정확도를 보였습니다. 반면 다중 선택형 평가와 참조 답변 없이 LLM을 사용한 평가는 인간 평가와의 일치도가 낮았습니다. 답변 매칭을 통한 평가 개선은 단순한 개념적 문제가 아니며, 여러 모델의 순위가 답변 매칭으로 자유 형식 응답을 평가할 때 상당히 달라집니다. 따라서 논문은 다중 선택형 평가에서 답변 매칭으로 평가 생태계를 전환하는 방안을 논의합니다.