यह पत्र तीन प्रमुख बड़े पैमाने के भाषा मॉडल (एलएलएम), जीपीटी-4o, डीपसीक-वी3 और जेमिनी-2.0 की गणितीय समस्या-सुलझाने की क्षमताओं की तुलना और विश्लेषण करता है, तीन डेटासेट का उपयोग करके: जीएसएम8के, मैथ500 और एमआईटी ओपन कोर्सवेयर। स्ट्रक्चर्ड चेन-ऑफ-थॉट (एससीओटी) ढांचे के आधार पर, हम पांच पहलुओं का मूल्यांकन करते हैं: अंतिम उत्तर सटीकता, चरण पूर्णता, चरण वैधता, मध्यवर्ती गणना सटीकता और समस्या समझ। नतीजतन, जीपीटी-4o सभी डेटासेट पर सबसे स्थिर और सुसंगत प्रदर्शन दिखाता है, और विशेष रूप से एमआईटी ओपन कोर्सवेयर डेटासेट पर कठिन समस्याओं पर उत्कृष्टता प्राप्त करता है। डीपसीक-वी3 अनुकूलन जैसे अच्छी तरह से संरचित क्षेत्रों में प्रतिस्पर्धी प्रदर्शन दिखाता है त्रुटि विश्लेषण परिणामों से पता चला कि GPT-4o में कभी-कभी स्पष्टीकरण या सटीकता का अभाव होता था, डीपसीक-V3 में कभी-कभी मध्यवर्ती चरणों को छोड़ दिया जाता था, और जेमिनी-2.0 उच्च-आयामी गणितीय तर्क में अनम्य था।