본 논문은 강화 학습을 통해 추론 능력을 향상시키는 대규모 언어 모델(LLM)의 검증 문제를 다룬다. 모델 생성 응답과 참조 답변의 일관성 검증은 응답의 길이, 다양성, 뉘앙스 때문에 어려움을 겪는다. 규칙 기반 검증기는 복잡성에 어려움을 느끼고, 모델 기반 검증기가 사용되지만, 특수화된 검증기는 유연성이 부족하며 일반적인 LLM 판단기는 일관성이 부족하다. 기존 연구는 더 나은 검증기를 만드는 데 집중했지만, 다양한 유형의 검증기 성능에 대한 체계적인 도메인 간 비교 평가가 부족하여 검증 가능한 보상을 사용한 강화 학습(RLVR)의 신뢰할 수 있는 개발을 제약한다. 이를 해결하기 위해 본 논문은 검증기를 체계적으로 평가하기 위한 도메인 간 포괄적인 벤치마크인 VerifyBench를 제안한다. 수학, 물리, 화학, 생물학을 다루는 4,000개의 전문가 수준 질문과 각 질문에 대한 참조 답변 및 다양한 응답을 구성한다. 다학제 전문가 팀이 진행한 엄격한 주석 프로세스를 통해 평가의 신뢰성을 보장한다. 추출된 답변 대 완전한 응답, 짧은 출력 대 긴 출력의 결합 조건 하에서 특수화된 검증기와 일반 LLM의 성능 경계를 종합적으로 비교하기 위한 4차원 실험 프레임워크를 설계한다. 평가 결과 검증기의 근본적인 트레이드오프를 밝혀낸다. 특수화된 검증기는 높은 정확도를 달성하지만 재현율이 부족하고, 일반 모델은 더 강력한 포괄성을 보이지만 정밀도가 불안정하다. 더 중요한 것은 검증기의 입력 구조에 대한 높은 민감성과 도메인 간 일반화의 고유한 한계를 발견하여 현재 검증기 기술의 병목 현상에 대한 중요한 통찰력을 제공한다.