दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

TreeGPT: ध्यान तंत्र के बिना संरचित तर्क के लिए शुद्ध TreeFFN एनकोडर-डिकोडर आर्किटेक्चर

Created by
  • Haebom

लेखक

ज़िक्सी ली

रूपरेखा

TreeGPT एक ध्यान-रहित तंत्रिका नेटवर्क आर्किटेक्चर है जो शुद्ध TreeFFN एनकोडर-डिकोडर डिज़ाइन का उपयोग करके संरचित अनुमान कार्यों की क्षमता का अन्वेषण करता है। ध्यान तंत्र पर निर्भर पारंपरिक ट्रांसफ़ॉर्मर दृष्टिकोणों के विपरीत, TreeGPT का उद्देश्य द्विदिश TreeFFN घटकों का उपयोग करके कम्प्यूटेशनल दक्षता बनाए रखते हुए अनुमान प्रदर्शन प्राप्त करना है जो पड़ोसी कनेक्शनों के माध्यम से समानांतर में अनुक्रमों को संसाधित करते हैं। बाएँ से दाएँ निर्भरताओं को संसाधित करने वाला एनकोडर और दाएँ से बाएँ पैटर्न को संसाधित करने वाला डिकोडर, दोनों ही सरल पड़ोसी कनेक्शनों वाले TreeFFN एनकोडर-डिकोडर तंत्र पर केंद्रित हैं। 3.16 मिलियन मापदंडों का उपयोग करके, हमने ARC पुरस्कार 2025 डेटासेट पर 99% सत्यापन सटीकता प्राप्त की। मॉडल 1,500 प्रशिक्षण चरणों में अभिसरित हुआ और चयनित मूल्यांकन नमूनों पर 100% टोकन-स्तरीय सटीकता प्राप्त की।

Takeaways, Limitations

Takeaways: इससे पता चलता है कि कुछ संरचनात्मक अनुमान कार्यों के लिए एक विशिष्ट TreeFFN आर्किटेक्चर, ध्यान-आधारित दृष्टिकोणों की तुलना में अधिक लाभप्रद हो सकता है। यह उच्च सटीकता (99% सत्यापन सटीकता, 100% टोकन-स्तरीय सटीकता) और तेज़ अभिसरण (1,500 प्रशिक्षण चरण) प्राप्त करता है।
Limitations: ध्यान-मुक्त डिज़ाइनों की व्यापक प्रयोज्यता की पुष्टि के लिए विविध कार्यों और डेटासेट पर और अधिक शोध की आवश्यकता है। वर्तमान परिणाम एक विशिष्ट डेटासेट तक सीमित हैं और सामान्यीकरण की और पुष्टि की आवश्यकता है।
👍