यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है। यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है। पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।
हल्क पहला मल्टीमॉडल मानव-केंद्रित सामान्यीकरण मॉडल है जो 2D और 3D दृष्टि, कंकाल-आधारित और दृष्टि-भाषा कार्यों सहित विविध मानव-केंद्रित अवधारणात्मक कार्यों को संभालने में सक्षम है। मौजूदा मानव-केंद्रित मॉडल की सीमाएँ हैं, जैसे कि 3D और दृष्टि-भाषा कार्यों को संभालने में असमर्थता और कार्य-विशिष्ट फ़ाइन-ट्यूनिंग की आवश्यकता। इन चुनौतियों का समाधान करने के लिए, हल्क विविध कार्य-विशिष्ट शीर्षों को दो सामान्य शीर्षों में एकीकृत करता है: एक असतत अभ्यावेदन (जैसे, भाषा) के लिए और दूसरा निरंतर अभ्यावेदन (जैसे, निर्देशांक) के लिए। यह एकीकृत अभ्यावेदन हल्क को मोडैलिटी रूपांतरण के साथ विविध मानव-केंद्रित कार्यों को संभालने और कार्यों की एक विस्तृत श्रृंखला में ज्ञान को एकीकृत करने की अनुमति देता है। आठ मानव-केंद्रित कार्यों को कवर करने वाले 12 बेंचमार्क पर
हम पहला बहु-मोडैलिटी मॉडल प्रस्तुत करते हैं जो कार्य-विशिष्ट फाइन-ट्यूनिंग के बिना विविध मानव-केंद्रित धारणा कार्यों (2D/3D दृष्टि, कंकाल-आधारित और दृष्टि-भाषा) को संभालने में सक्षम है।
◦
दो सामान्य शीर्षों के माध्यम से एकीकृत प्रतिनिधित्व विभिन्न कार्यों में ज्ञान एकीकरण और तौर-तरीकों के रूपांतरण को सक्षम बनाता है।
◦
12 में से 11 बेंचमार्क में अत्याधुनिक प्रदर्शन हासिल किया।
◦
खुले स्रोत प्रकटीकरण के माध्यम से अनुसंधान का विस्तार करना और उपयोगिता बढ़ाना।
•
Limitations:
◦
वर्तमान में प्रस्तुत बेंचमार्क के अलावा अन्य कार्यों के लिए सामान्यीकरण प्रदर्शन सत्यापन आवश्यक है।
◦
मॉडल के आकार और कम्प्यूटेशनल लागत का आगे विश्लेषण आवश्यक है।
◦
विशिष्ट कार्यों के लिए प्रदर्शन को अनुकूलित करने हेतु और अधिक शोध की आवश्यकता है।