Este artículo aborda el problema de la validación de modelos de lenguaje a gran escala (LLM) que mejoran sus capacidades de inferencia mediante aprendizaje por refuerzo. La verificación de la consistencia entre las respuestas generadas por el modelo y las respuestas de referencia es compleja debido a la longitud, variedad y matices de las respuestas. Los verificadores basados en reglas presentan dificultades con la complejidad; se utilizan verificadores basados en modelos, pero los verificadores especializados carecen de flexibilidad, y los evaluadores de LLM generales carecen de consistencia. La investigación existente se ha centrado en el desarrollo de mejores verificadores, pero existe una falta de evaluación comparativa sistemática interdisciplinaria del rendimiento de varios tipos de verificadores, lo que limita el desarrollo fiable del aprendizaje por refuerzo con recompensas verificables (RLVR). Para abordar esto, este artículo propone VerifyBench, un punto de referencia integral interdisciplinario para la evaluación sistemática de verificadores. Consta de 4000 preguntas de nivel experto que abarcan matemáticas, física, química y biología, junto con respuestas de referencia y diversas respuestas para cada pregunta. La fiabilidad de la evaluación se garantiza mediante un riguroso proceso de anotación realizado por un equipo multidisciplinario de expertos. Diseñamos un marco experimental de cuatro dimensiones para comparar exhaustivamente los límites de rendimiento de los verificadores especializados y los LLM generales en condiciones combinadas de respuestas extraídas vs. respuestas completas, resultados cortos vs. resultados largos. Los resultados de la evaluación revelan desventajas fundamentales en los verificadores: el verificador especializado alcanza una alta precisión, pero presenta una baja recuperación, mientras que el modelo general exhibe una mayor exhaustividad, pero presenta una precisión inestable. Más importante aún, observamos la alta sensibilidad del verificador a la estructura de entrada y las limitaciones inherentes a la generalización interdominio, lo que proporciona información importante sobre los obstáculos de las tecnologías actuales de verificación.