दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

मैं सही उत्तर दिए बिना अपना एलएलएम बेंचमार्क कैसे प्रकाशित कर सकता हूं?

Created by
  • Haebom

लेखक

ताकाशी इशिदा, थानावत लोडकेउ, इक्को यामाने

रूपरेखा

यह शोधपत्र इस जोखिम को उठाता है कि सार्वजनिक रूप से उपलब्ध बड़े पैमाने के भाषा मॉडल (एलएलएम) बेंचमार्क भविष्य में एलएलएम प्रशिक्षण या चयन में अनजाने में (या जानबूझकर) इस्तेमाल किए जा सकते हैं, जिससे मॉडल संदूषण हो सकता है। मौजूदा समाधान, जैसे बेंचमार्क गोपनीयता और प्रतिभागी मॉडल/पूर्वानुमान प्रस्तुति, किसी विशिष्ट संस्थान में विश्वास पर निर्भर करते हैं और बार-बार प्रश्नों के माध्यम से ओवरफिटिंग की संभावना को खुला छोड़ देते हैं। यह शोधपत्र बेंचमार्क को सार्वजनिक रूप से प्रकट करने की एक विधि प्रस्तावित करता है, जिससे एलएलएम का सार्वजनिक मूल्यांकन पूर्ण उत्तरों का खुलासा किए बिना संभव हो सके। मूल विचार कई तार्किक रूप से सही उत्तर प्रदान करके और उनमें से केवल एक को सही उत्तर के रूप में शामिल करके उत्तरों में यादृच्छिकता का समावेश करना है। यह दृष्टिकोण बेंचमार्क की बायेसियन सटीकता को कम करता है, सही उत्तर की रक्षा करता है और डेटा संदूषण का पता लगाने के लिए एक परीक्षण प्रदान करता है। चूँकि पूर्ण मॉडल भी बायेसियन सटीकता से आगे नहीं बढ़ सकते, इसलिए इससे आगे बढ़ना डेटा संदूषण का एक प्रबल संकेतक है। प्रायोगिक परिणाम प्रदर्शित करते हैं कि यह विधि विभिन्न बेंचमार्क, मॉडल और शिक्षण विधियों में डेटा संदूषण का सटीक रूप से पता लगा सकती है।

Takeaways, Limitations

Takeaways:
इंटरनेट पर एलएलएम बेंचमार्क के प्रकटीकरण के कारण उत्पन्न मॉडल संदूषण समस्या का एक प्रभावी समाधान।
बेंचमार्क उत्तरों का पूर्ण खुलासा किए बिना एलएलएम का सार्वजनिक रूप से मूल्यांकन करने के लिए एक नई विधि प्रस्तावित की गई है।
बायेसियन सटीकता का उपयोग करते हुए डेटा संदूषण का पता लगाने की तकनीक प्रस्तुत की गई है।
विभिन्न बेंचमार्क, मॉडल और शिक्षण विधियों में डेटा संदूषण पहचान प्रदर्शन का सत्यापन।
Limitations:
प्रस्तावित विधि की प्रभावशीलता बेंचमार्क डिज़ाइन और उत्तरों की विविधता के आधार पर भिन्न हो सकती है।
बायेसियन सटीकता से ज़्यादा होने वाले सभी मामलों को डेटा संदूषण के कारण नहीं माना जा सकता। अन्य कारण भी इसमें योगदान दे सकते हैं।
प्रयोगात्मक परिणाम विशिष्ट डेटासेट और मॉडल तक सीमित हो सकते हैं, तथा सामान्यीकरण निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है।
👍