दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

ऑनलाइन शिक्षा में मदद मांगकर आपदा से बचें

Created by
  • Haebom

लेखक

बेंजामिन प्लाट, हनलिन झू, स्टुअर्ट रसेल

रूपरेखा

यह शोधपत्र मौजूदा ऑनलाइन शिक्षण एल्गोरिदम की सीमा को इंगित करता है जो यह मानता है कि सभी गलतियों को ठीक किया जा सकता है, और एक नई ऑनलाइन शिक्षण समस्या का प्रस्ताव करता है जो उस मामले पर विचार करता है जहां कुछ गलतियाँ अपरिवर्तनीय 'घातक' गलतियाँ हैं। हम प्रत्येक दौर के पुरस्कार को 'आपदा से बचने की संभावना' के रूप में परिभाषित करते हैं, और सीमित संख्या में संरक्षक प्रश्नों के भीतर आपदा से बचने की संभावनाओं (कुल आपदा से बचने की संभावना) के उत्पाद को अधिकतम करने का लक्ष्य रखते हैं। हम समान इनपुट के बीच ज्ञान हस्तांतरण की अनुमति देते हैं, और साबित करते हैं कि सामान्य तौर पर, संरक्षक क्वेरी दर रैखिक होती है या आपदा घटना की संभावना 1 के करीब होती है। हालाँकि, एक मानक ऑनलाइन मॉडल में, हम एक एल्गोरिथ्म प्रस्तुत करते हैं जिसमें संरक्षक क्वेरी दर और पछतावा 0 पर अभिसरित होते हैं क्योंकि ऐसे वातावरण में समय क्षितिज बढ़ता है जहाँ संरक्षक नीति वर्ग सीखने योग्य होता है। हालाँकि हम पुरस्कारों के उत्पाद पर ध्यान केंद्रित करते हैं, हम सामान्य योगात्मक पछतावे पर एक सीमा भी प्रस्तुत करते हैं। संक्षेप में, हम दिखाते हैं कि यदि कोई नीति वर्ग घातक जोखिम की अनुपस्थिति में सीखने योग्य है, तो यह घातक जोखिम की उपस्थिति में भी सीखने योग्य है यदि इसे संरक्षक से सहायता मिल सकती है।

Takeaways, Limitations

Takeaways: घातक गलतियों की संभावना पर विचार करते हुए एक नया ऑनलाइन शिक्षण ढांचा प्रस्तुत किया गया है। मार्गदर्शन के माध्यम से सीखने की संभावना का प्रदर्शन किया गया है। सीमित मार्गदर्शन के तहत भी एक कुशल शिक्षण रणनीति प्रस्तुत की गई है। योगात्मक और गुणात्मक पछतावे दोनों के लिए एक चेतावनी प्रस्तुत की गई है।
Limitations: यह मानने की आवश्यकता है कि मेंटर पॉलिसी क्लास को मानक ऑनलाइन मॉडल से सीखा जा सकता है। इस बात का और अध्ययन करने की आवश्यकता है कि मेंटर की क्वेरी काउंट सीमा वास्तविक स्थितियों पर लागू होती है या नहीं। वास्तविक अनुप्रयोगों में प्रदर्शन का मूल्यांकन करने की आवश्यकता है। मेंटर की प्रतिक्रिया सटीकता के लिए विचार का अभाव।
👍