Pour relever les défis de l'évaluation des compétences mathématiques des modèles de langage à grande échelle (MLH), cet article propose le cadre Proof2Hybrid, qui génère automatiquement des benchmarks de haute qualité, basés sur la preuve, à partir de données mathématiques en langage naturel. Grâce à une feuille de route appelée Proof2X, nous transformons les preuves mathématiques en questions diversifiées et facilement vérifiables. Plus précisément, nous présentons un nouveau format de questions hybrides, les « questions à juge multiple $m$ sur $n$ », qui résistent aux conjectures et aux correspondances de motifs superficielles. Nous évaluons les LMH de pointe à l'aide du benchmark AlgGeoTest (456 items) pour la géométrie algébrique. Nous constatons des lacunes importantes dans la compréhension de la géométrie algébrique par les LMH, démontrant que cette lacune pourrait être exploitée pour mesurer plus précisément leurs compétences mathématiques. Cette étude ouvre de nouvelles perspectives pour une recherche approfondie sur l'intelligence mathématique des systèmes d'IA.