दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

एसकेए-बेंच: एलएलएम की संरचित ज्ञान समझ के मूल्यांकन के लिए एक सूक्ष्म बेंचमार्क

Created by
  • Haebom

लेखक

झिकियांग लियू, एन्पेई नीयू, यिन हुआ, मेंगशू सन, लेई लियांग, हुआजुन चेन, वेन झांग

रूपरेखा

यह शोधपत्र SKA-बेंच का प्रस्ताव करता है, जो बड़े पैमाने के भाषा मॉडल (LLM) की संरचित ज्ञान (SK) समझ के मूल्यांकन हेतु एक नवीन मानक है। SKA-बेंच में चार प्रकार के SK शामिल हैं—ज्ञान ग्राफ़ (KG), तालिकाएँ, KG+पाठ, और तालिकाएँ+पाठ—और यह तीन-चरणीय पाइपलाइन के माध्यम से प्रश्नों, सही उत्तरों, सकारात्मक ज्ञान इकाइयों और गलत ज्ञान इकाइयों से युक्त उदाहरण उत्पन्न करता है। LLM की SK समझ का और अधिक मूल्यांकन करने के लिए, हम शोर के प्रति सुदृढ़ता, क्रम उदासीनता, सूचना एकीकरण और नकारात्मक सूचना अस्वीकृति के लिए चार मूलभूत परीक्षण-स्थलों का विस्तार करते हैं। आठ प्रतिनिधि LLM पर किए गए प्रयोगों से पता चलता है कि मौजूदा LLM अभी भी संरचित ज्ञान समझ के साथ संघर्ष करते हैं, और उनका प्रदर्शन शोर की मात्रा, ज्ञान इकाइयों के क्रम और मतिभ्रम जैसे कारकों से प्रभावित होता है। डेटासेट और कोड GitHub पर उपलब्ध हैं।

Takeaways, Limitations

Takeaways:
संरचित ज्ञान को समझने की एलएलएम की क्षमता के लिए एक व्यापक और कठोर मूल्यांकन बेंचमार्क प्रदान करता है।
विभिन्न प्रकार के संरचित ज्ञान को व्यापक रूप से कवर करके, आप अपनी एलएलएम कमजोरियों का सटीक निदान कर सकते हैं।
यह संरचित ज्ञान को समझने की एलएलएम की क्षमता का विस्तृत विश्लेषण करने में सक्षम बनाता है।
यह स्पष्ट रूप से मौजूदा एलएलएम की संरचित ज्ञान बोध क्षमता की सीमाओं को प्रस्तुत करता है।
Limitations:
वर्तमान में बेंचमार्क में शामिल एलएलएम के प्रकार सीमित हो सकते हैं।
एसकेए-बेंच के प्रदर्शन मूल्यांकन मेट्रिक्स और मापन विधियों पर आगे अनुसंधान की आवश्यकता हो सकती है।
कुछ प्रकार के संरचित ज्ञान के प्रति पूर्वाग्रह हो सकता है।
👍