दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

एलएलएम में आत्मविश्वास से पतन तक तथ्यात्मक मजबूती

Created by
  • Haebom

लेखक

एलिना फास्टोव्स्की, बार्डह प्रेनकाज, जॉर्जजी कासनेसी

रूपरेखा

यह शोधपत्र तथ्यात्मक सुदृढ़ता स्कोर (FRS) का प्रस्ताव करता है, जो बड़े पैमाने के भाषा मॉडलों (LLM) में तथ्यात्मक ज्ञान की सुदृढ़ता का आकलन करने के लिए एक नवीन मीट्रिक है। जबकि मौजूदा मूल्यांकन विधियाँ मुख्यतः प्रदर्शन-आधारित मीट्रिक्स और त्वरित परिवर्तनों के बाहरी प्रभाव पर केंद्रित हैं, यह शोधपत्र टोकन वितरण एन्ट्रॉपी और तापमान स्केलिंग के प्रति संवेदनशीलता का विश्लेषण करके निर्माण प्रक्रिया के दौरान ही तथ्यात्मक सुदृढ़ता को मापने के लिए एक सैद्धांतिक दृष्टिकोण प्रस्तुत करता है। पाँच LLM और तीन बंद-अंत प्रश्न-उत्तर डेटासेट (SQuAD, TriviaQA, और HotpotQA) पर किए गए प्रयोगों से पता चलता है कि तथ्यात्मक सुदृढ़ता मॉडल के आकार के साथ महत्वपूर्ण रूप से भिन्न होती है (छोटे मॉडलों के लिए 0.76 और बड़े मॉडलों के लिए 0.93), और अनिश्चितता बढ़ने पर सटीकता लगभग 60% कम हो जाती है। यह विश्लेषण तथ्यात्मक सटीकता पर एन्ट्रॉपी और तापमान स्केलिंग के प्रभाव को प्रदर्शित करता है, और अधिक मज़बूत ज्ञान धारण और पुनर्प्राप्ति क्षमताओं वाले मॉडलों के विकास की नींव रखता है।

Takeaways, Limitations

Takeaways:
हम एलएलएम की तथ्यात्मक ज्ञान मजबूती के मूल्यांकन के लिए एक नया सूचकांक, एफआरएस प्रस्तुत करते हैं।
सृजन प्रक्रिया पर ध्यान केन्द्रित करते हुए एक नई मूल्यांकन पद्धति प्रस्तुत की गई है।
मॉडल आकार और यथार्थवादी मजबूती के बीच संबंध का खुलासा।
बढ़ती अनिश्चितता के कारण सटीकता में गिरावट की घटना की पहचान करें।
एक ऐसा आधार स्थापित करना जो भविष्य में एलएलएम की ज्ञान धारण और पुनर्प्राप्ति क्षमताओं को बेहतर बनाने में योगदान दे सके।
Limitations:
प्रस्तावित एफआरएस संकेतकों की सामान्यता निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है।
विभिन्न प्रकार के एलएलएम और डेटासेट पर आगे और प्रयोग करने की आवश्यकता है।
एफआरएस संकेतकों में सुधार और अनुपूरण के लिए और अधिक शोध की आवश्यकता है।
👍