दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

हल्क: मानव-केंद्रित कार्यों के लिए एक सार्वभौमिक ज्ञान अनुवादक

Created by
  • Haebom

लेखक

यिज़हौ वांग, यिक्सुआन वू, वीज़ेन हे, ज़ून गुओ, फेंग झू, लेई बाई, रुई झाओ, जियान वू, टोंग हे, वानली ओयांग, शिज़ियांग तांग

रूपरेखा

हल्क पहला मल्टीमॉडल मानव-केंद्रित सामान्यीकरण मॉडल है जो 2D और 3D दृष्टि, कंकाल-आधारित और दृष्टि-भाषा कार्यों सहित विविध मानव-केंद्रित अवधारणात्मक कार्यों को संभालने में सक्षम है। मौजूदा मानव-केंद्रित मॉडल की सीमाएँ हैं, जैसे कि 3D और दृष्टि-भाषा कार्यों को संभालने में असमर्थता और कार्य-विशिष्ट फ़ाइन-ट्यूनिंग की आवश्यकता। इन चुनौतियों का समाधान करने के लिए, हल्क विविध कार्य-विशिष्ट शीर्षों को दो सामान्य शीर्षों में एकीकृत करता है: एक असतत अभ्यावेदन (जैसे, भाषा) के लिए और दूसरा निरंतर अभ्यावेदन (जैसे, निर्देशांक) के लिए। यह एकीकृत अभ्यावेदन हल्क को मोडैलिटी रूपांतरण के साथ विविध मानव-केंद्रित कार्यों को संभालने और कार्यों की एक विस्तृत श्रृंखला में ज्ञान को एकीकृत करने की अनुमति देता है। आठ मानव-केंद्रित कार्यों को कवर करने वाले 12 बेंचमार्क पर

Takeaways, Limitations

Takeaways:
हम पहला बहु-मोडैलिटी मॉडल प्रस्तुत करते हैं जो कार्य-विशिष्ट फाइन-ट्यूनिंग के बिना विविध मानव-केंद्रित धारणा कार्यों (2D/3D दृष्टि, कंकाल-आधारित और दृष्टि-भाषा) को संभालने में सक्षम है।
दो सामान्य शीर्षों के माध्यम से एकीकृत प्रतिनिधित्व विभिन्न कार्यों में ज्ञान एकीकरण और तौर-तरीकों के रूपांतरण को सक्षम बनाता है।
12 में से 11 बेंचमार्क में अत्याधुनिक प्रदर्शन हासिल किया।
खुले स्रोत प्रकटीकरण के माध्यम से अनुसंधान का विस्तार करना और उपयोगिता बढ़ाना।
Limitations:
वर्तमान में प्रस्तुत बेंचमार्क के अलावा अन्य कार्यों के लिए सामान्यीकरण प्रदर्शन सत्यापन आवश्यक है।
मॉडल के आकार और कम्प्यूटेशनल लागत का आगे विश्लेषण आवश्यक है।
विशिष्ट कार्यों के लिए प्रदर्शन को अनुकूलित करने हेतु और अधिक शोध की आवश्यकता है।
👍