दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

संवर्धित प्रतिकूल ट्रिगर लर्निंग

Created by
  • Haebom

लेखक

झे वांग, यानजुन क्यूई

रूपरेखा

मौजूदा एडवर्सरीयल ट्रिगर लर्निंग (ATLA) की सीमाओं को दूर करने के लिए, यह शोधपत्र संवर्धित उद्देश्यों (ATLA) के साथ एडवर्सरीयल ट्रिगर लर्निंग का प्रस्ताव करता है। ATLA मौजूदा ऋणात्मक लॉग-संभावना हानि फलन को भारित हानि फलन में सुधारता है, जिससे यह सुनिश्चित होता है कि सीखे गए एडवर्सरीयल ट्रिगर प्रतिक्रिया-प्रकार के टोकन के लिए अधिक अनुकूलित होते हैं। यह एडवर्सरीयल ट्रिगर्स को केवल एक प्रश्न-प्रतिक्रिया युग्म के साथ सीखने की अनुमति देता है, जिससे अन्य समान प्रश्नों के लिए अच्छा सामान्यीकरण सुनिश्चित होता है। इसके अलावा, एक सहायक हानि फलन जोड़कर ट्रिगर अनुकूलन को बढ़ाया जाता है जो टालमटोल करने वाली प्रतिक्रियाओं को दबा देता है। प्रायोगिक परिणाम दर्शाते हैं कि ATLA मौजूदा अत्याधुनिक तकनीकों से बेहतर प्रदर्शन करता है, लगभग 100% सफलता दर प्राप्त करता है जबकि 80% कम प्रश्नों की आवश्यकता होती है। सीखे गए एडवर्सरीयल ट्रिगर नए प्रश्नों और LLM के लिए भी अच्छी तरह से सामान्यीकृत होते हैं। स्रोत कोड सार्वजनिक रूप से उपलब्ध है।

____T38751_____, ____T38752_____

Takeaways:
एकल प्रश्न-उत्तर युग्म के साथ प्रतिकूल ट्रिगर सीखना संभव है।
मौजूदा तरीकों की तुलना में उच्च सफलता दर और दक्षता प्राप्त करें (80% कम प्रश्न)
सीखे गए ट्रिगर्स का उच्च सामान्यीकरण प्रदर्शन और स्थानांतरण सीखने की क्षमता
एलएलएम कमजोरियों का फायदा उठाने और सिस्टम प्रॉम्प्ट निकालने में प्रभावी
ओपन सोर्स कोड के माध्यम से पुनरुत्पादनशीलता सुनिश्चित करना
Limitations:
विशिष्ट एलएलएम या प्रश्नों के प्रकार के लिए सामान्यीकरण प्रदर्शन के लिए आगे के अध्ययन की आवश्यकता हो सकती है।
सहायक हानि कार्यों के डिजाइन और भार समायोजन पर अनुकूलन अनुसंधान की आवश्यकता है।
नई रक्षा तकनीकों के विरुद्ध ATLA की मजबूती का मूल्यांकन किया जाना आवश्यक है।
👍