दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

पैमाने से परे: प्राकृतिक भाषा डेटा में परिवर्तनशीलता के लिए डेटा गुणवत्ता मीट्रिक के रूप में विविधता गुणांक

Created by
  • Haebom

लेखक

ब्रैंडो मिरांडा, एलिसिया ली, सुदर्शन सुंदर, एलीसन कैसासोला, रिलन शेफ़र, इलियास ओब्बाड, सनमी कोयेजो

रूपरेखा

इस पत्र में, हम बड़े पैमाने पर भाषा मॉडल (एलएलएम) पूर्व-प्रशिक्षण में डेटा गुणवत्ता, विशेष रूप से डेटा विविधता का एक मात्रात्मक माप प्रस्तुत करते हैं। पिछले एलएलएम पूर्व-प्रशिक्षण अध्ययनों ने मुख्य रूप से मॉडल और डेटासेट आकार विस्तार पर ध्यान केंद्रित किया है, लेकिन डेटा गुणवत्ता का महत्व स्पष्ट रूप से परिभाषित नहीं किया गया है। जवाब में, हम प्राकृतिक भाषा डेटा की विविधता और सार्वजनिक रूप से उपलब्ध पूर्व-प्रशिक्षण डेटासेट की विविधता को मापने के लिए 'विविधता गुणांक' नामक एक मीट्रिक प्रस्तावित करते हैं। GPT-2 और LLaMAv2 का उपयोग करके विभिन्न आकारों (51M से 7B मापदंडों तक) के 44 मॉडल (कुल मिलाकर) पर प्रयोगों के माध्यम से, हम दिखाते हैं कि प्रस्तावित विविधता गुणांक डाउनस्ट्रीम मॉडल मूल्यांकन प्रदर्शन के साथ सहसंबंधित है।

____T84981_____, ____T84982_____

Takeaways:
हम एलएलएम पूर्व-प्रशिक्षण डेटा की विविधता को मात्रात्मक रूप से मापने के लिए एक नया सूचकांक (विविधता गुणांक) प्रस्तुत करते हैं।
प्रयोगात्मक रूप से सिद्ध करें कि विविधता गुणांक एलएलएम के डाउनस्ट्रीम संचालन प्रदर्शन से निकटता से संबंधित है।
डेटा की गुणवत्ता में सुधार के लिए नई दिशाएँ प्रस्तुत करना।
विभिन्न आकारों के मॉडलों में सुसंगत परिणाम।
Limitations:
विविधता गुणांक डेटा गुणवत्ता के सभी पहलुओं को कवर नहीं कर सकते हैं (विविधता के अलावा अन्य कारकों पर भी विचार करने की आवश्यकता है)
चूंकि ये एक विशिष्ट डेटासेट और मॉडल के लिए प्रयोगात्मक परिणाम हैं, इसलिए सामान्यीकरण निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है।
विविधता गुणांक की गणना महंगी हो सकती है।
विविधता गुणांकों को अनुकूलित करने वाले डेटासेट बनाने के तरीके पर आगे अनुसंधान की आवश्यकता है।
👍