Para abordar los desafíos de evaluar la capacidad matemática de los modelos lingüísticos a gran escala (LLM), este artículo propone el marco Proof2Hybrid, que genera automáticamente pruebas de referencia de alta calidad basadas en datos matemáticos de lenguaje natural. Mediante una hoja de ruta denominada Proof2X, transformamos las pruebas matemáticas en preguntas diversas y fácilmente verificables. En concreto, presentamos un novedoso formato híbrido de preguntas, "$m$ de $n$ preguntas de múltiples jueces", que son robustas a las conjeturas y a la coincidencia superficial de patrones. Evaluamos LLM de vanguardia utilizando el modelo de referencia AlgGeoTest (456 ítems) para geometría algebraica. Encontramos deficiencias significativas en la comprensión de la geometría algebraica por parte de los LLM, lo que demuestra que esta brecha podría utilizarse para medir con mayor precisión su capacidad matemática. Este estudio presenta nuevas posibilidades para la investigación en profundidad sobre la inteligencia matemática de los sistemas de IA.