दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

मिनीसीपीएम4: अंतिम उपकरणों पर अति-कुशल एलएलएम

Created by
  • Haebom

लेखक

मिनीसीपीएम टीम, चाओजुन जिओ, युक्सुआन ली, जू हान, युझुओ बाई, जी काई, हाओटियन चेन, वेंटोंग चेन, किउज़ुओ ली, सियुआन ली, वेनहाओ ली, जियानघुई सन, पीजुन तांग, फैंगझेंग वांग, फेंग वांग, शुओ वांग, युडोंग वांग, झेंग वांग, येसाई वू, झेनयु जिओ, जी झोउ, जी झोउ, वेई झोउ, यांगहाओ झोउ, ज़िहान झोउ, ज़िक्सुआन झोउ, ज़ियुआन लियू, गुओयांग ज़ेंग, चाओ जिया, दहाई ली, माओसॉन्ग सुन

रूपरेखा

MiniCPM4 एक अत्यधिक कुशल वृहद-स्तरीय भाषा मॉडल (LLM) है जिसे अंतिम-उपयोगकर्ता उपकरणों के लिए डिज़ाइन किया गया है। यह चार प्रमुख क्षेत्रों में नवाचारों के माध्यम से दक्षता प्राप्त करता है: मॉडल आर्किटेक्चर (InfLLM v2), प्रशिक्षण डेटा (UltraClean, UltraChat v2), प्रशिक्षण एल्गोरिदम (ModelTunnel v2, खंड-वार रोलआउट, BitCPM), और अनुमान प्रणाली (CPM.cu)। InfLLM v2 एक प्रशिक्षण योग्य विरल अवधान तंत्र है जो दीर्घ-संदर्भ प्रसंस्करण के लिए पूर्व-भरण और डिकोडिंग चरणों को गति प्रदान करता है। UltraClean और UltraChat v2 कुशल और सटीक पूर्व-प्रशिक्षण डेटा फ़िल्टरिंग और निर्माण रणनीतियाँ हैं, साथ ही व्यापक पर्यवेक्षित शिक्षण फ़ाइन-ट्यूनिंग डेटासेट भी हैं। इन डेटासेट का उपयोग करके, हमने केवल 8 ट्रिलियन प्रशिक्षण टोकन के साथ संतोषजनक मॉडल प्रदर्शन प्राप्त किया। ModelTunnel v2 कुशल पूर्व-प्रशिक्षण रणनीति खोज के लिए एक एल्गोरिदम है, जो खंड-वार रोलआउट और BitCPM के माध्यम से मौजूदा प्रशिक्षण-पश्चात विधियों में सुधार करता है। CPM.cu कुशल प्री-फिलिंग और डिकोडिंग प्राप्त करने के लिए विरल ध्यान, मॉडल क्वांटिज़ेशन और सट्टा नमूनाकरण को एकीकृत करता है। विविध उपकरण आवश्यकताओं को पूरा करने के लिए, हम MiniCPM4.1 प्रस्तुत करते हैं, जो एक हाइब्रिड अनुमान मॉडल है जो 0.5B और 8B मापदंडों के साथ दो संस्करणों में उपलब्ध है, और गहन अनुमान और गैर-अनुमान दोनों मोड में प्रयोग योग्य है। हमारे मूल्यांकन दर्शाते हैं कि MiniCPM4 और MiniCPM4.1 बेंचमार्क पर समान आकार के ओपन-सोर्स मॉडलों से बेहतर प्रदर्शन करते हैं, विशेष रूप से 8B संस्करण लंबे अनुक्रम समझ और निर्माण में महत्वपूर्ण गति प्रदर्शित करता है।

Takeaways, Limitations

Takeaways:
बड़े पैमाने पर भाषा मॉडल विकसित करने की क्षमता को प्रदर्शित करता है जो अंतिम-उपयोगकर्ता उपकरणों पर कुशलतापूर्वक संचालित होते हैं।
दीर्घ संदर्भ प्रसंस्करण की गति में सुधार के लिए एक नवीन वास्तुकला और एल्गोरिथ्म प्रस्तुत किया गया है।
कुशल डेटा फ़िल्टरिंग और उत्पादन रणनीतियों के माध्यम से प्रशिक्षण डेटा का आकार कम करें।
विविध डिवाइस आवश्यकताओं को पूरा करने के लिए विभिन्न मॉडल संस्करणों में उपलब्ध है।
समान आकार वाले ओपन सोर्स मॉडल की तुलना में बेहतर प्रदर्शन और गति में सुधार।
Limitations:
मिनीसीपीएम4.1 में हाइब्रिड अनुमान मॉडल के प्रदर्शन और दक्षता के विस्तृत विश्लेषण का अभाव।
प्रस्तुत नवीन प्रौद्योगिकियों की सामान्यता निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है।
अन्य एलएलएम के साथ अधिक व्यापक तुलनात्मक विश्लेषण की आवश्यकता है।
8 ट्रिलियन टोकन का प्रशिक्षण डेटा आकार अभी भी महत्वपूर्ण है, और इससे भी कम डेटा के साथ प्रदर्शन बनाए रखने के तरीके खोजने के लिए अनुसंधान की आवश्यकता है।
👍