दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

डोमेन-विशिष्ट एलएलएम के लिए बेंचमार्किंग: अकादमिक और उससे आगे का एक केस स्टडी

Created by
  • Haebom

लेखक

रुबिंग चेन, जियाक्सिन वू, जियान वांग, ज़ुलु झांग, वेंकी फैन, चेनघुआ लिन, जिओ-योंग वेई, किंग ली

रूपरेखा

यह शोधपत्र Comp-Comp प्रस्तुत करता है, जो बड़े पैमाने के भाषा मॉडल (LLM) के डोमेन-विशिष्ट मूल्यांकन हेतु एक बेंचमार्किंग ढाँचा है। मौजूदा बड़े पैमाने के डेटा-आधारित बेंचमार्किंग विधियों के विपरीत, Comp-Comp व्यापकता और संक्षिप्तता के आधार पर डोमेन-व्यापी पहलुओं का सटीक और कुशलतापूर्वक मूल्यांकन करता है। बोधगम्यता अर्थ-बोध को बढ़ाती है, जबकि संक्षिप्तता अतिरेक और शोर को कम करती है, जिससे परिशुद्धता में सुधार होता है। एक विश्वविद्यालय पर केंद्रित एक केस स्टडी के माध्यम से, यह शोधपत्र Comp-Comp का उपयोग करके एक उच्च-गुणवत्तापूर्ण, बड़े पैमाने के शैक्षणिक बेंचमार्क, PolyBench, के विकास की प्रक्रिया को प्रदर्शित करता है। यह Comp-Comp ढाँचे की विभिन्न क्षेत्रों में प्रयोज्यता को प्रदर्शित करता है।

Takeaways, Limitations

Takeaways:
हम मौजूदा डेटा विस्तार-आधारित बेंचमार्किंग की सीमाओं को इंगित करते हैं और व्यापकता और संक्षिप्तता के आधार पर एक नए बेंचमार्किंग ढांचे का प्रस्ताव करते हैं।
हम दर्शाते हैं कि कॉम्प-कॉम्प फ्रेमवर्क डोमेन-विशिष्ट एलएलएम आकलन की सटीकता और स्मरण शक्ति में सुधार कर सकता है।
हमने पॉलीबेंच नामक एक उच्च-गुणवत्तापूर्ण, बड़े पैमाने का शैक्षणिक बेंचमार्क सफलतापूर्वक विकसित किया है, जो इसकी व्यावहारिक प्रयोज्यता को प्रदर्शित करता है।
चूंकि यह एक डोमेन-स्वतंत्र ढांचा है, इसलिए इसे विभिन्न क्षेत्रों में लागू किया जा सकता है।
Limitations:
इस पेपर में केस स्टडी एक विशिष्ट डोमेन, विश्वविद्यालय पर केंद्रित है, तथा अन्य डोमेन में इसकी सामान्यता निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है।
कॉम्प-कॉम्प ढांचे की प्रभावशीलता और दक्षता को डोमेन और एलएलएम की एक व्यापक श्रृंखला में सत्यापित करने की आवश्यकता है।
पॉलीबेंच की गुणवत्ता और दायरे का आगे वस्तुनिष्ठ मूल्यांकन आवश्यक है।
👍