दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

NVIDIA नेमोट्रॉन नैनो 2: एक सटीक और कुशल हाइब्रिड माम्बा-ट्रांसफार्मर रीजनिंग मॉडल

Created by
  • Haebom

लेखक

एनवीडिया, :, आरती बसंत, अभिजीत खैरनार, अभिजीत पैठंकर, अभिनव खट्टर, आदित्य रेंदुचिंतला, आदित्य माल्टे, अखियाद बर्कोविच, अक्षय हजारे, एलेजांद्रा रिको, अलेक्जेंडर फिसेक, एलेक्स कोंडराटेंको, एलेक्स शापोशनिकोव, अलेक्जेंडर बुखारिन, अली ताघीबख्शी, अमेलिया बार्टन, अमेय सुनील महाबलेश्वरकर, एमी शेन, एंड्रयू ताओ, एन गुआन, अन्ना शोर्स, अनुभव मंदरवाल, अरहम मेहता, अरुण वेंकटेशन, एश्टन शरबियानी, अश्वथ ऐथल, अश्विन पुजारी, आयुष दत्तगुप्ता, बलराम बुद्धराजू, बंघुआ झू, बरनबी सिम्किन, बिलाल करताल, बीता दरविश रूहानी, बॉबी चेन, बोरिस गिन्सबर्ग, ब्रैंडन नोरिक, ब्रायन यू, ब्रायन कैटनज़ारो, चार्ल्स वांग, चार्ली ट्रूंग, चेतन मुंगेकर, चिंतन पटेल, क्रिस एलेक्सियुक, क्रिस्चियन मुनले, क्रिस्टोफर पेरिसियन, डैन सु, डेनियल अफरीमी, डेनियल कोरजेकवा, डेनियल रोहरर, डारिया गिटमैन, डेविड मोसलानेजहाद, दीपक नारायणन, दिमा रेकेश, दीना येरेड, दिमित्रो पाइख्तर, डोंग आह्न, डंकन रियाच, एलीन लॉन्ग, इलियट निंग, एरिक चुंग, एरिक गैलिनकिन, एवेलिना बख्तुरिना, गार्गी प्रसाद, गेराल्ड शेन, हैफेंग कियान, हैम एलीशा, हर्ष शर्मा, हेले रॉस, हेलेन न्गो, हरमन सहोता, हेक्सिन वांग, हू चांग शिन, हुआ हुआंग, इयान कनिंघम, इगोर गिटमैन, इवान मोशकोव, जेहुन जंग, जान कौत्ज़, जेन पोलाक स्कोक्रॉफ्ट, जेरेड कैस्पर, जियान झांग, जियाकी ज़ेंग, जिमी झांग, जिन्ज़ ज़ू, जॉक्लिन हुआंग, जॉय कॉनवे, जॉन कमालू, जोनाथन कोहेन, जोसेफ जेनिंग्स, जूलियन वेरोन वियालार्ड, जंकयुन यी, जुपिंदर परमार, कारी ब्रिस्की, कैथरीन चेउंग, कैथरीन लूना, कीथ वाइस, केशव संथानम, केझी कोंग, क्रिज़्सटोफ पावेलेक, कुमार अनिक, कुनलुन ली, कुशान अहमदियन, लॉरेंस मैक्एफ़ी, लिया स्लीमन, लियोन डेर्ज़िंस्की, लुइस वेगा, मेर रोड्रिग्स डी मेलो, मकेश नरसिम्हन श्रीधर, मार्सिन चोचोव्स्की, मार्क कै, मार्कस क्लिगल, मार्टा स्टेपनीव्स्का-डिज़ुबिंस्का, माटवेई नोविकोव, मेहरज़ाद समदी, मेरेडिथ प्राइस, मेरिएम बाउबडिर, माइकल बून, माइकल इवांस, माइकल बिएन, माइकल ज़वाल्स्की, मिगुएल मार्टिनेज़, माइक क्रज़ानोव्स्की, मोहम्मद शोयबी, मोस्टोफ़ा पटवारी, नमित धमेजा, नवे असफ़, नेगर हबीबी, निधि भाटिया, निक्की पोप, नीमा ताजबख्श, निर्मल कुमार जुलुरु, ओलेग रयबाकोव, ओलेक्सी ह्रीनचुक, ओलेक्सी कुचैव, ओलुवाटोबी ओलाबियी, पाब्लो रिबाल्टा, पद्मावती सुब्रमण्यम, पार्थ चड्ढा, पावलो मोलचानोव, पीटर डाइकस, पीटर जिन, पियोत्र बियालेकी, पियोत्र जानुसजेवस्की, प्रदीप थलास्ता, प्रशांत गायकवाड़, प्रसून वार्ष्णेय, प्रीतम गुंडेचा, प्रेज़ेमेक ट्रेडक, रबीह करीमी महाबादी, राजेन पटेल, रान एल-यानीव, रंजीत राजन, रिया चेरुवु, रीमा शाहबाज़यान, रितिका बोरकर, रितु गाला, रोजर वालेफ़े, रुओक्सी झांग, रसेल जे. हेवेट, रयान प्रेंजर; साहिल जैन, सैमुअल क्रिमन, संजीव सतीश, साओरी काजी, सारा युरिक, सौरव मुरलीधरन, सीन नरेनथिरन, सेओनमयोंग बाक, सेपेहर सामेनी, सेंगजू हान, शनमुगम रामासामी, शाओना घोष, शरथ तुरुवेकेरे श्रीनिवास, शेल्बी थॉमस, शिज़े डियाओ, श्रेया गोपाल, श्रीमाई प्रभुमोये, शुभम तोशनीवाल, शुओयांग डिंग, सिद्धार्थ सिंह, सिद्धार्थ जैन। सोमशुब्रा मजूमदार, सौम्ये सिंघल, स्टेफनिया अल्बोर्गेट्टी, सैयदा नाहिदा एक्टर, टेरी कोंग, टिम मून, टोमाज़ ह्लिवियाक, तोमर असिडा, टोनी वांग, तुगरुल कोनुक, ट्विंकल वशिष्ठ, टायलर पून, उदी करपस, वाहिद नोरूजी, वेंकट श्रीनिवासन, विजय कोर्थिकंती, विक्रम फुगरो, विनीत कल्लूरु, विटाली कुरिन, विटाली लावरुखिन, वासी उद्दीन अहमद, वेई डू, वोनमिन ब्योन, ज़िमिंग लू, ज़िन डोंग, यशस्वी कर्नाती, येजिन चोई, यियान झांग, यिंग लिन, योंगगन फू, योशी सुहारा, जेन डोंग, झियू ली, झोंगबो झू, ज़िजिया चेन

रूपरेखा

नेमोट्रॉन-नैनो-9B-v2 एक हाइब्रिड माम्बा-ट्रांसफॉर्मर भाषा मॉडल है जिसे समान आकार के मॉडलों की तुलना में अत्याधुनिक सटीकता प्राप्त करने और अनुमान लगाने की क्षमता बढ़ाने के लिए डिज़ाइन किया गया है। नेमोट्रॉन-H आर्किटेक्चर पर आधारित, यह विशिष्ट ट्रांसफॉर्मर आर्किटेक्चर की अधिकांश स्व-ध्यान परतों को माम्बा-2 परतों से प्रतिस्थापित करता है, जिससे अनुमान लगाने की गति में सुधार होता है और अनुमान लगाने के लिए आवश्यक लंबी विचार प्रक्रियाएँ उत्पन्न होती हैं। सबसे पहले, एक 12 बिलियन-पैरामीटर मॉडल (नेमोट्रॉन-नैनो-12B-v2-बेस) को 20 ट्रिलियन टोकन का उपयोग करके FP8 प्रशिक्षण विधि के साथ पूर्व-प्रशिक्षित किया जाता है, और फिर मॉडल को मिनिट्रॉन रणनीति का उपयोग करके संपीड़ित और आसुत किया जाता है, जिससे एक एकल NVIDIA A10G GPU (22GiB मेमोरी, bfloat16 परिशुद्धता) पर 128k टोकन तक का अनुमान लगाना संभव हो जाता है। समान आकार के मौजूदा मॉडलों (जैसे, Qwen3-8B) की तुलना में, नेमोट्रॉन-नैनो-9B-v2 अनुमान बेंचमार्क पर समान या बेहतर सटीकता प्राप्त करता है, जबकि 8k इनपुट और 16k आउटपुट टोकन जैसी अनुमान सेटिंग्स पर 6 गुना तक अधिक अनुमान थ्रूपुट प्राप्त करता है। हम नेमोट्रॉन-नैनो-9B-v2, नेमोट्रॉन-नैनो-12B-v2-बेस, और नेमोट्रॉन-नैनो-9B-v2-बेस, साथ ही अधिकांश पूर्व- और प्रशिक्षण-पश्चात डेटासेट के लिए चेकपॉइंट हगिंग फेस पर जारी करते हैं।

Takeaways, Limitations

Takeaways:
माम्बा-ट्रांसफार्मर आर्किटेक्चर मौजूदा मॉडलों की तुलना में अनुमान कार्यों की थ्रूपुट को 6 गुना तक बेहतर बनाता है।
समान आकार के मॉडलों की तुलना में समतुल्य या बेहतर सटीकता प्राप्त की गई।
एकल NVIDIA A10G GPU पर 128k टोकन तक के लंबे टेक्स्ट प्रोसेसिंग को सक्षम करता है।
हमने पहुंच बढ़ाने के लिए मॉडल और डेटासेट को हगिंग फेस पर सार्वजनिक कर दिया है।
Limitations:
इस शोधपत्र में विशिष्ट Limitations का स्पष्ट उल्लेख नहीं किया गया है। आगे के प्रयोग या तुलनात्मक विश्लेषण से और स्पष्टीकरण मिल सकता है।
विशिष्ट हार्डवेयर (NVIDIA A10G GPU) के लिए अनुकूलित, अन्य हार्डवेयर वातावरणों पर प्रदर्शन भिन्न हो सकता है।
प्रीट्रेनिंग डेटासेट की संरचना और गुणवत्ता के बारे में विस्तृत जानकारी का अभाव है।
👍