Để Giải quyết những thách thức trong việc đánh giá năng lực toán học của các mô hình ngôn ngữ quy mô lớn (LLM), bài báo này đề xuất khuôn khổ Proof2Hybrid, tự động tạo ra các điểm chuẩn dựa trên chứng minh chất lượng cao từ dữ liệu toán học ngôn ngữ tự nhiên. Thông qua lộ trình mang tên Proof2X, chúng tôi chuyển đổi các chứng minh toán học thành các câu hỏi đa dạng, dễ kiểm chứng. Cụ thể, chúng tôi trình bày một định dạng câu hỏi lai mới, "$m$-trong-$n$ câu hỏi nhiều giám khảo", có khả năng chống lại việc phỏng đoán và so khớp mẫu hời hợt. Chúng tôi đánh giá các LLM tiên tiến bằng cách sử dụng điểm chuẩn AlgGeoTest (456 câu hỏi) cho hình học đại số. Chúng tôi nhận thấy những thiếu sót đáng kể trong hiểu biết của các LLM về hình học đại số, chứng minh rằng khoảng cách này có thể được sử dụng để đo lường năng lực toán học của họ chính xác hơn. Nghiên cứu này mở ra những khả năng mới cho nghiên cứu chuyên sâu về trí tuệ toán học của các hệ thống AI.