Cet article identifie les problèmes rencontrés dans l'évaluation des performances des modèles de langage à grande échelle (MLH) qui améliorent les capacités de raisonnement mathématique grâce à l'apprentissage par renforcement (AR). Il propose un nouveau cadre d'évaluation, VAR-MATH, pour les résoudre. Les méthodes d'évaluation existantes présentent des problèmes de contamination et de fragilité des critères de référence. VAR-MATH les résout en imposant une inférence cohérente en transformant les problèmes numériques en modèles symboliques et en exigeant la résolution de plusieurs instances. Lorsque les critères de référence AMC23 et AIME24 sont transformés à l'aide de VAR-MATH, les performances des modèles entraînés par AR sont considérablement dégradées, ce qui suggère que les méthodes d'AR existantes reposent sur des heuristiques superficielles et ne parviennent pas à généraliser au-delà de formats numériques spécifiques.