दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

सीड-X: 7B मापदंडों के साथ मजबूत बहुभाषी अनुवाद एलएलएम का निर्माण

Created by
  • Haebom

लेखक

शानबो चेंग, यू बाओ, कियान काओ, लुयांग हुआंग, लियान कांग, झिचेंग लियू, यू लू, वेन्हाओ झू, जिंगवेन चेन, झिचाओ हुआंग, ताओ ली, यिफू ली, हुईयिंग लिन, सिटोंग लियू, निंगक्सिन पेंग, शुआइजी शी, लू जू, नुओ जू, सेन यांग, रनशेंग यू, यिमिंग यू, लीहाओ ज़ू, हैंग ली, लू लू, युक्सुआन वांग, योंगहुई वू

रूपरेखा

सीड-X एक ओपन-सोर्स लार्ज-स्केल लैंग्वेज मॉडल (LLM) परिवार है जिसमें 7 अरब पैरामीटर हैं, जिनमें निर्देशित और अनुमानित दोनों मॉडल शामिल हैं। 28 भाषाओं की विविध, उच्च-गुणवत्ता वाली एकभाषी और द्विभाषी सामग्री का उपयोग करके पूर्व-प्रशिक्षित, इसे चेन ऑफ़ थॉट (CoT) अनुमान के माध्यम से परिष्कृत किया जाता है और फिर सुदृढीकरण अधिगम (RL) का उपयोग करके कई भाषा युग्मों में सामान्यीकृत किया जाता है। यह 28 भाषाओं में जेमिनी-2.5 और GPT-4o जैसे प्रमुख क्लोज्ड-लूप मॉडल के बराबर प्रदर्शन करता है, और स्वचालित और मानवीय मूल्यांकन मेट्रिक्स, दोनों में बड़े ओपन-सोर्स मॉडल से काफ़ी बेहतर प्रदर्शन करता है। हम अपनी अनुकूलन प्रक्रिया से सर्वोत्तम अभ्यास साझा करते हैं और अनुवाद अनुसंधान एवं अनुप्रयोगों को आगे बढ़ाने के लिए अपने पैरामीटर्स को ओपन-सोर्स करते हैं।

Takeaways, Limitations

Takeaways:
यह 7 बिलियन पैरामीटरों के अपेक्षाकृत छोटे आकार के साथ अत्याधुनिक बंद-लूप मॉडल के समान प्रदर्शन प्राप्त करता है, जो हल्के, उच्च-प्रदर्शन वाले बहुभाषी अनुवाद मॉडल विकसित करने की क्षमता को प्रदर्शित करता है।
यह मुक्त स्रोत के रूप में जारी किया गया है और बहुभाषी अनुवाद अनुसंधान और अनुप्रयोगों के विकास में योगदान देता है।
विचार-श्रृंखला (सीओटी) अनुमान और सुदृढीकरण सीखने (आरएल) का उपयोग करके विविध भाषा युग्मों में सामान्यीकरण प्रदर्शन में सुधार करना।
हम एक उच्च गुणवत्ता वाले बहुभाषी डेटासेट का उपयोग करके एक प्रभावी पूर्व-प्रशिक्षण विधि प्रस्तुत करते हैं जो विभिन्न भाषाओं का समर्थन करता है।
Limitations:
इस पेपर में Limitations या भविष्य के अनुसंधान निर्देशों के विशिष्ट संदर्भों का अभाव है।
7 बिलियन पैरामीटर अभी भी एक महत्वपूर्ण मॉडल आकार है, इसलिए छोटे आकार के मॉडल विकसित करने के लिए अनुसंधान आवश्यक हो सकता है।
विस्तृत निष्पादन विश्लेषण, जैसे कि विशिष्ट भाषा युग्मों या वाक्य प्रकारों के लिए निष्पादन विचलन, का अभाव हो सकता है।
👍