본 논문은 검증 가능한 보상을 사용하는 강화 학습(RLVR)에서 신뢰할 수 있는 검증기의 중요성을 강조하며, 수학적 추론 분야를 중심으로 다양한 검증기에 대한 포괄적인 분석을 수행합니다. 기존의 규칙 기반 검증기는 여러 데이터셋에서 동일한 답변을 다른 형식으로 제시할 경우 오류를 범하는 경우가 많다는 것을 밝히고, 이는 강화 학습 성능에 부정적인 영향을 미친다는 것을 보여줍니다. 모델 기반 검증기는 정적 평가에서 높은 정확도를 보이지만, 강화 학습 과정에서는 특정 패턴을 잘못 분류하는 취약점(허위 양성)을 드러내며, 이는 인위적으로 과장된 보상으로 이어진다는 것을 발견합니다. 결론적으로, 규칙 기반 및 모델 기반 검증기 모두 고유한 위험을 가지고 있으며, 더욱 강력한 보상 시스템 개발을 위한 통찰력을 제공합니다.