दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

सीएमफिजबेंच: संघनित पदार्थ भौतिकी में बड़े भाषा मॉडलों के मूल्यांकन के लिए एक बेंचमार्क

Created by
  • Haebom

लेखक

वेइदा वांग, डोंगचेन हुआंग, जियाटोंग ली, तेंगचाओ यांग, ज़ियांग झेंग, डि झांग, डोंग हान, बेंटेंग चेन, बिनझाओ लुओ, झियु लियू, कुनलिंग लियू, झियुआन गाओ, शिकी गेंग, वेई मा, जियामिंग सु, शिन ली, शुचेन पु, युहान शुई, कियानजिया चेंग, झिहाओ डू, डोंगफेई कुई, चांगयोंग हे, जिन ज़ेंग, ज़ेके झी, माओ सु, डोंगज़ान झोउ, युकियांग ली, वानली ओयांग, यूंकी कै, शी दाई, शुफेई झांग, लेई बाई, जिंगुआंग चेंग, झोंग फांग, होंगमिंग वेंग

रूपरेखा

CMPhysBench एक नया मानक है जिसे संघनित पदार्थ भौतिकी में वृहत्-स्तरीय भाषा मॉडल (LLM) के प्रदर्शन का मूल्यांकन करने के लिए डिज़ाइन किया गया है। इसमें 520 से अधिक स्नातक-स्तरीय प्रश्न शामिल हैं, जो संघनित पदार्थ भौतिकी के प्रमुख उपक्षेत्रों और मौलिक सैद्धांतिक ढाँचों को कवर करते हैं, जिनमें चुंबकत्व, अतिचालकता और प्रबल रूप से सहसंबद्ध प्रणालियाँ शामिल हैं। यह उन अभिकलनात्मक समस्याओं पर केंद्रित है जिनके लिए LLM को स्वतंत्र रूप से व्यापक समाधान उत्पन्न करने की आवश्यकता होती है, जिससे समस्या-समाधान प्रक्रिया की गहरी समझ सुनिश्चित होती है। इसके अलावा, यह स्केलेबल एक्सप्रेशन एडिट डिस्टेंस (SEED) स्कोर को प्रस्तुत करने के लिए व्यंजकों के वृक्ष-आधारित निरूपण का लाभ उठाता है, जो सटीक (गैर-बाइनरी) आंशिक स्कोर प्रदान करता है और पूर्वानुमानों और सही उत्तर के बीच समानता का अधिक सटीक आकलन करता है। परिणाम दर्शाते हैं कि सर्वश्रेष्ठ प्रदर्शन करने वाला मॉडल, Grok-4, भी CMPhysBench पर 36 का औसत SEED स्कोर और 28% की सटीकता प्राप्त करता है, जो इस व्यावहारिक और अत्याधुनिक क्षेत्र में पारंपरिक भौतिकी की तुलना में एक महत्वपूर्ण प्रदर्शन अंतर को दर्शाता है। कोड और डेटासेट सार्वजनिक रूप से https://github.com/CMPhysBench/CMPhysBench पर उपलब्ध हैं ।

Takeaways, Limitations

Takeaways: हम एक नया बेंचमार्क (CMPhysBench) प्रस्तुत करते हैं जो संघनित पदार्थ भौतिकी में LLM के प्रदर्शन का सटीक मूल्यांकन कर सकता है। SEED स्कोर अधिक सटीक प्रदर्शन मूल्यांकन की अनुमति देता है। यह संघनित पदार्थ भौतिकी की समस्याओं को हल करने में वर्तमान LLM की क्षमता की महत्वपूर्ण सीमाओं को भी उजागर करता है। ओपन कोड और डेटासेट निरंतर अनुसंधान और विकास में सहायक होंगे।
Limitations: वर्तमान बेंचमार्क केवल कम्प्यूटेशनल समस्याओं पर केंद्रित है और संघनित पदार्थ भौतिकी के अन्य पहलुओं (जैसे, वैचारिक समझ और सैद्धांतिक विश्लेषण) को पूरी तरह से प्रतिबिंबित नहीं कर सकता है। बेंचमार्क प्रश्नों की कठिनाई और दायरे को भविष्य में और विस्तारित करने की आवश्यकता है। चूँकि यह एक विशिष्ट एलएलएम पर केंद्रित है, इसलिए अन्य प्रकार के मॉडलों के लिए इसकी सामान्यता निर्धारित करने के लिए और अधिक शोध की आवश्यकता है।
👍