दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

लैम्प-कैप: मल्टीमॉडल फिगर प्रोफाइल के साथ वैयक्तिकृत फिगर कैप्शन जनरेशन

Created by
  • Haebom

लेखक

हो यिन 'सैम' एनजी, टिंग-याओ सू, आशीष अनंत रामकृष्णन, ब्रानिस्लाव केवेटन, नेदिम लिप्का, फ्रैंक डर्नोनकोर्ट, डोंगवोन ली, टोंग यू, सुंगचुल किम, रयान ए. रॉसी, टिंग-हाओ 'केनेथ' हुआंग

रूपरेखा

यह शोधपत्र लेखक की शैली और क्षेत्र की शैली से मेल खाने के लिए AI-जनित चित्र कैप्शन को वैयक्तिकृत करने की आवश्यकता पर प्रकाश डालता है। हम LaMP-Cap प्रस्तुत करते हैं, जो बहुविध चित्र प्रोफ़ाइल का उपयोग करके वैयक्तिकृत चित्र कैप्शन बनाने के लिए एक डेटासेट है। LaMP-Cap न केवल प्रत्येक चित्र के लिए छवि प्रदान करता है, बल्कि उसी दस्तावेज़ में अन्य चित्रों के संदर्भ को दर्शाने के लिए अधिकतम तीन प्रोफ़ाइल (चित्र, कैप्शन और चित्र उद्धरण अनुच्छेद सहित) भी प्रदान करता है। प्रायोगिक परिणाम दर्शाते हैं कि प्रोफ़ाइल जानकारी का उपयोग करने से लेखक द्वारा लिखे गए कैप्शन के अधिक समान कैप्शन बनाने में मदद मिलती है, और प्रोफ़ाइल में चित्र चित्र उद्धरण अनुच्छेदों की तुलना में अधिक जानकारीपूर्ण होते हैं। यह बहुविध प्रोफ़ाइल के लाभों को दर्शाता है।

Takeaways, Limitations

Takeaways:
हम अनुभवजन्य रूप से मल्टीमॉडल (छवि, पाठ) प्रोफाइल का उपयोग करके व्यक्तिगत छवि कैप्शन बनाने की उपयोगिता को प्रदर्शित करते हैं।
उम्मीद है कि लैम्प-कैप डेटासेट, व्यक्तिगत चित्र कैप्शन निर्माण पर भविष्य के अनुसंधान में महत्वपूर्ण योगदान देगा।
हमने पाया कि प्रोफ़ाइल में मौजूद छवि संबंधी जानकारी, पाठ्य संबंधी जानकारी की तुलना में कैप्शन बनाने में अधिक प्रभावी होती है।
Limitations:
लैम्प-कैप डेटासेट के आकार और विविधता की आगे समीक्षा की आवश्यकता है।
विभिन्न प्रकार के चित्रणों और लेखक शैलियों को अधिक व्यापक रूप से प्रतिबिंबित करने के लिए डेटासेट का विस्तार किया जाना आवश्यक है।
विशिष्ट डोमेन या लेखक शैलियों के लिए ओवरफिटिंग की संभावना पर विचार किया जाना चाहिए।
👍