दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

चैट एलएलएम की संभावनाओं का गलत आकलन किया गया है, लेकिन फिर भी बहुविकल्पीय प्रश्नोत्तर पर शुद्धता की भविष्यवाणी की गई है

Created by
  • Haebom

लेखक

बेंजामिन प्लाट, गुयेन X। खान, तू त्रिन्ह

रूपरेखा

यह शोधपत्र 15 बड़े पैमाने के भाषा मॉडल (एलएलएम) का विश्लेषण करता है और पाता है कि चैट के लिए फाइन-ट्यून्ड एलएलएम की अधिकतम सॉफ्टमैक्स संभावना (एमएसपी) बहुविकल्पीय प्रश्नोत्तर में लगातार गलत कैलिब्रेट की जाती है। हालाँकि, एमएसपी में अभी भी उपयोगी अनिश्चितता की जानकारी हो सकती है। हम यह परिकल्पना करते हैं कि गलत उत्तर सही उत्तरों की तुलना में छोटे एमएसपी से जुड़े होंगे, और कठोर सांख्यिकीय परीक्षण दर्शाता है कि यह परिकल्पना उन मॉडलों के लिए सही है जो बुनियादी प्रश्नोत्तर कार्य पर अच्छा प्रदर्शन करते हैं। हमें प्रश्नोत्तर सटीकता और एमएसपी सटीकता पूर्वानुमानों के बीच एक मजबूत दिशात्मक सहसंबंध भी मिलता है, लेकिन प्रश्नोत्तर सटीकता और अंशांकन त्रुटियों के बीच कोई सहसंबंध नहीं मिलता है। यह बताता है कि वर्तमान फाइन-ट्यून्डिंग प्रतिमान के भीतर, एलएलएम प्रदर्शन में सुधार से सटीकता पूर्वानुमानों में सुधार होने की संभावना होगी, न कि अंशांकन में।

Takeaways, Limitations

Takeaways:
हम दिखाते हैं कि यदि LLM का MSP बहुविकल्पीय प्रश्नोत्तर में गलत तरीके से कैलिब्रेट किया गया हो, तो भी यह सही/गलत उत्तरों की भविष्यवाणी करने के लिए उपयोगी जानकारी प्रदान कर सकता है।
जैसे-जैसे एलएलएम प्रदर्शन में सुधार होगा, सही उत्तर की भविष्यवाणी के प्रदर्शन में भी सुधार होने की संभावना है, लेकिन सुधार प्रदर्शन में सुधार होने की संभावना नहीं है।
एमएसपी का उपयोग अस्वीकृति रणनीति के माध्यम से प्रदर्शन में सुधार के लिए किया जा सकता है। लेबल डेटा की थोड़ी मात्रा के साथ भी, एमएसपी सीमा निर्धारित करके प्रदर्शन में सुधार किया जा सकता है।
Limitations:
विश्लेषण एक विशिष्ट प्रकार के प्रश्नोत्तर कार्य तक सीमित है।
एमएसपी-आधारित प्रतिक्रिया अस्वीकृति रणनीतियों की सामान्यता निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है।
विभिन्न एलएलएम आर्किटेक्चर और फाइन-ट्यूनिंग विधियों पर आगे अनुसंधान की आवश्यकता है।
👍