दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

RePPL: व्याख्या योग्य QA मतिभ्रम का पता लगाने के लिए अर्थ प्रसार और भाषा निर्माण में अनिश्चितता द्वारा व्याकुलता का पुनर्निर्धारण

Created by
  • Haebom

लेखक

यिमिंग हुआंग, जुन्यान झांग, जिहाओ वांग, बिकान बी, युनझोंग किउ, यी आर. फंग, झिनलेई हे

रूपरेखा

यह शोधपत्र बड़े पैमाने के भाषा मॉडलों (LLM) में मतिभ्रम की समस्या के समाधान हेतु एक नवीन विधि, RePPL का प्रस्ताव करता है। मतिभ्रम का पता लगाने की मौजूदा विधियाँ अनिश्चितता मापन पर केंद्रित हैं, लेकिन मतिभ्रम के कारण की व्याख्या करने में विफल रहती हैं। इस सीमा को पार करने के लिए, हम अर्थ-प्रसार और भाषा निर्माण के दौरान उत्पन्न होने वाली अनिश्चितताओं को ध्यान में रखते हुए एक टोकन-स्तरीय अनिश्चितता स्कोर की गणना करते हैं। फिर इन अंकों को एक समग्र मतिभ्रम स्कोर प्राप्त करने के लिए एक पेरप्लेक्सिटी-शैली लघुगणक माध्य के रूप में एकत्रित किया जाता है। हमारी विधि उत्कृष्ट प्रदर्शन प्रदर्शित करती है, विभिन्न QA डेटासेट और अत्याधुनिक मॉडलों पर 0.833 का औसत AUC प्राप्त करती है, जो मतिभ्रम के कारण की व्याख्या करने में टोकन-स्तरीय अनिश्चितता स्कोर की उपयोगिता को प्रदर्शित करता है।

Takeaways, Limitations

Takeaways:
एलएलएम की मतिभ्रम समस्या को हल करने के लिए एक नया दृष्टिकोण (अर्थ प्रसार और भाषा उत्पादन की प्रक्रिया में अनिश्चितता को ध्यान में रखते हुए)
टोकन-स्तर अनिश्चितता स्कोर मतिभ्रम के कारण के लिए एक संभावित स्पष्टीकरण प्रदान करते हैं।
विभिन्न QA डेटासेट और अत्याधुनिक मॉडलों पर उत्कृष्ट मतिभ्रम पहचान प्रदर्शन (औसत AUC 0.833)।
मतिभ्रम के भ्रामक पैटर्न की खोज और उनका दोहन
Limitations:
RePPL का प्रदर्शन मूल्यांकन एक विशिष्ट QA डेटासेट और अत्याधुनिक मॉडलों तक सीमित है। डेटासेट और मॉडलों की एक विस्तृत श्रृंखला पर अतिरिक्त प्रयोगों की आवश्यकता है।
टोकन-स्तरीय अनिश्चितता स्कोर का उपयोग करके मतिभ्रम पैटर्न का विश्लेषण अभी भी अपनी प्रारंभिक अवस्था में है और इसके लिए और अधिक गहन विश्लेषण और सत्यापन की आवश्यकता है।
प्रस्तावित विधि के सामान्यीकरण प्रदर्शन और मापनीयता पर आगे अनुसंधान की आवश्यकता है।
👍