दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

चार आंदोलनों में जोड़: एलएलएम में परत-वार सूचना प्रक्षेप पथ का मानचित्रण

Created by
  • Haebom

लेखक

याओ यान

रूपरेखा

यह शोधपत्र रैखिक जाँच और लॉगिट-लेंस परीक्षण के संयोजन का उपयोग करके LLaMA-3-8B-इंस्ट्रक्ट मॉडल में बहु-अंकीय योग प्रक्रिया का विश्लेषण करता है। मानव योग के समान, यह चार चरणों वाली एक पदानुक्रमित प्रक्रिया प्रस्तुत करता है: गणितीय संरचना निरूपण का रैखिक डिकोडिंग, मुख्य अभिकलनात्मक विशेषताओं का उद्भव, परिणाम का संख्यात्मक अमूर्तन, और अंतिम समाधान निर्माण। इससे पता चलता है कि मॉडल बहु-अंकीय योग करने के लिए स्मरण के बजाय आंतरिक संगणन पर निर्भर करता है। कोड और डेटा सार्वजनिक रूप से उपलब्ध कराए जाते हैं, जिससे पुनरुत्पादन क्षमता बढ़ जाती है।

Takeaways, Limitations

Takeaways:
LLaMA-3-8B-इंस्ट्रक्ट मॉडल की बहु-अंकीय जोड़ प्रक्रिया को मॉडल के आंतरिक कार्य सिद्धांतों को प्रकट करने के लिए चार-चरणीय पदानुक्रमित प्रक्रिया के रूप में समझाया गया है।
दिखाएँ कि मॉडल याद करने के बजाय आंतरिक गणना के माध्यम से समस्याओं को हल करता है।
खुले कोड और डेटा के माध्यम से अनुसंधान की पुनरुत्पादन क्षमता सुनिश्चित करना।
Limitations:
विश्लेषण एक विशिष्ट मॉडल (LLaMA-3-8B-Instruct) तक सीमित था। अन्य मॉडलों पर इसकी सामान्यता निर्धारित करने के लिए और अधिक शोध की आवश्यकता है।
यह सत्यापित करना आवश्यक है कि प्रस्तावित चार-चरणीय पदानुक्रमित प्रक्रिया सभी बहु-अंकीय जोड़ समस्याओं पर लागू होती है या नहीं।
विश्लेषणात्मक विधियों की सीमाओं के कारण, मॉडल की आंतरिक कार्यप्रणाली को पूरी तरह समझना कठिन है।
👍