[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

वैयक्तिकृत टेक्स्ट-टू-इमेज निर्माण के लिए स्वचालित ब्लैक-बॉक्स प्रॉम्प्ट इंजीनियरिंग

Created by
  • Haebom

लेखक

युटोंग हे, अलेक्जेंडर रॉबी, नाओकी मुराता, यिडिंग जियांग, जोशुआ नथानिएल विलियम्स, जॉर्ज जे. पप्पास, हामेद हसनी, युकी मित्सुफुजी, रुस्लान सलाखुतदीनोव, जे. ज़िको कोल्टर

रूपरेखा

टेक्स्ट-टू-इमेज (T2I) जनरेटिव मॉडल को नियंत्रित करने के लिए प्रभावी लेकिन श्रम-गहन प्रॉम्प्ट इंजीनियरिंग की सीमाओं को दूर करने के लिए, यह शोधपत्र PRISM, एक स्वचालित प्रॉम्प्ट जनरेशन एल्गोरिथम, प्रस्तावित करता है। PRISM, बड़े पैमाने के भाषा मॉडल (LLM) की संदर्भ-शिक्षण क्षमता का लाभ उठाकर संदर्भ छवियों पर आधारित उम्मीदवार प्रॉम्प्ट वितरण में क्रमिक रूप से सुधार करके, T2I मॉडल के लिए केवल एक ब्लैक-बॉक्स दृष्टिकोण के साथ मानव-समझने योग्य और हस्तांतरणीय प्रॉम्प्ट उत्पन्न करता है। प्रायोगिक परिणाम प्रदर्शित करते हैं कि PRISM, स्थिर विसरण, DALL-E और मिडजर्नी सहित कई T2I मॉडल पर वस्तुओं, शैलियों और छवियों के लिए सटीक प्रॉम्प्ट उत्पन्न करने में बहुमुखी और प्रभावी है।

Takeaways, Limitations

Takeaways:
हम एलएलएम से प्रासंगिक शिक्षा का लाभ उठाकर ब्लैक-बॉक्स टी2आई मॉडल के लिए प्रभावी और व्याख्या योग्य संकेतों को स्वचालित रूप से उत्पन्न करने की क्षमता का प्रदर्शन करते हैं।
विभिन्न T2I मॉडलों में स्थानांतरणीयता सुनिश्चित करके मॉडल निर्भरता को कम करना।
मानव-समझने योग्य संकेत उत्पन्न करके उपयोगकर्ता-अनुकूल इंटरफ़ेस प्रदान करने में योगदान देता है।
Limitations:
इस पेपर में प्रस्तुत PRISM एल्गोरिथम की प्रदर्शन सीमाओं और सामान्यीकरण पर आगे अनुसंधान की आवश्यकता है।
विशिष्ट T2I मॉडल या छवि प्रकारों के प्रति पूर्वाग्रह की संभावना पर विचार किया जाना चाहिए।
चूंकि यह एलएलएम के प्रदर्शन पर निर्भर करता है, इसलिए एलएलएम की सीमाएं प्रिज्म के प्रदर्शन को प्रभावित कर सकती हैं।
👍