दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

डेटासेट चयन के साथ एंड-टू-एंड टेक्स्ट-टू-SQL: अनुकूली क्वेरी निर्माण के लिए LLM का लाभ उठाना

फूरियर-वीएलएम: बड़े विज़न-लैंग्वेज मॉडल के लिए फ़्रीक्वेंसी डोमेन में विज़न टोकन को संपीड़ित करना

LAG: कार्टेशियन परिप्रेक्ष्य से तर्क-संवर्धित पीढ़ी

इको: विषम झुंडों पर बड़े पैमाने पर आरएल संरेखण के लिए वियुग्मन अनुमान और प्रशिक्षण

एफडीसी-नेट: ईईजी आर्टिफैक्ट निष्कासन और बहुआयामी भावात्मक कंप्यूटिंग के बीच संबंध पर पुनर्विचार

डिसार्थ्रिक स्पीच सिंथेसिस में निष्पक्षता: F5-TTS का उपयोग करके डिसार्थ्रिक स्पीच क्लोनिंग में आंतरिक पूर्वाग्रह को समझना

आरसीआर-राउटर: संरचित मेमोरी वाले मल्टी-एजेंट एलएलएम सिस्टम के लिए कुशल भूमिका-जागरूक संदर्भ रूटिंग

DS$^2$Net: मेडिकल इमेज सेगमेंटेशन के लिए डिटेल-सिमेंटिक डीप सुपरविज़न नेटवर्क

LLMDistill4Ads: eBay पर विज्ञापनदाता कीवर्ड अनुशंसाओं के लिए LLM सिग्नल से निष्कर्ष निकालने हेतु क्रॉस-एनकोडर्स का उपयोग करना

जब कारों में रूढ़ियाँ होती हैं: टेक्स्ट-टू-इमेज मॉडल से वस्तुओं में जनसांख्यिकीय पूर्वाग्रह का ऑडिट करना

हाईटेक: सिमेंटिक-अवेयर ऑग्मेंटेशन के साथ टेक्स्ट-एट्रिब्यूटेड हाइपरग्राफ पर पदानुक्रमित कंट्रास्टिव लर्निंग

स्पेक्ट्रमएफएम: फाउंडेशन मॉडलिंग के माध्यम से स्पेक्ट्रम संज्ञान को पुनर्परिभाषित करना

पदानुक्रमित वर्ग-वृद्धिशील अर्थपूर्ण विभाजन के साथ गतिशील रोबोट-सहायता प्राप्त सर्जरी

संभावित पंजीकरणों से नैदानिक परीक्षणों में गंभीर प्रतिकूल घटना परिणामों की भविष्यवाणी करने के लिए एक नवीन भाषा मॉडल

थोड़ी सी आज़ादी बहुत काम आती है: जनरेटिव मॉडल के तहत सुदृढीकरण सीखने के लिए शास्त्रीय और क्वांटम एल्गोरिदम

ALLoyM: मिश्र धातु चरण आरेख भविष्यवाणी के लिए एक बड़ा भाषा मॉडल

वाक्-संचालित 3D चेहरे के एनीमेशन को बेहतर बनाने के लिए ध्वन्यात्मक संदर्भ-निर्भर विसेम सीखना

क्या विज़न फाउंडेशन मॉडल आउट-ऑफ-द-बॉक्स मेडिकल इमेज पंजीकरण के लिए तैयार हैं?

सिस्टोलिक अटेंशन: एकल सिस्टोलिक ऐरे के भीतर फ्लैश अटेंशन का संयोजन

RAPNet: पैनशार्पनिंग के लिए एक ग्रहणशील-क्षेत्र अनुकूली कन्वोल्यूशनल न्यूरल नेटवर्क

एमिक्स-1: परीक्षण-समय स्केलेबल प्रोटीन फाउंडेशन मॉडल का मार्ग

पूर्वानुमान के अंतिम पड़ाव को पाटना: सशर्त निर्देशित प्रवाह मिलान के साथ समय श्रृंखला पूर्वानुमान को बढ़ाना

Speckle2Self: बिना किसी स्पष्ट डेटा के स्व-पर्यवेक्षित अल्ट्रासाउंड स्पेक रिडक्शन

LIRA: स्थानीय इंटरलीव्ड क्षेत्र सहायता के साथ बड़े बहु-मॉडल मॉडल में विभाजन का अनुमान लगाना

उदाहरण-मुक्त सतत शिक्षण में एकल-कार्य डेटा विषाक्तता के विनाशकारी प्रभावों को संबोधित करना

आधार बनाम डोमेन-विशिष्ट मॉडल: चेहरा पहचान में प्रदर्शन तुलना, संलयन और व्याख्यात्मकता

अनुमान-समय स्केलिंग के लिए संभाव्य इष्टतमता

ARAG: व्यक्तिगत अनुशंसा के लिए एजेंटिक पुनर्प्राप्ति संवर्धित पीढ़ी

कम संसाधन वाले संगीत निर्माण के लिए एडाप्टर डिज़ाइन ट्रेडऑफ़ की खोज

साइकिल डिस्टिल: चक्रीय आसवन के साथ एलएलएम का उपयोग करके मशीन अनुवाद को बूटस्ट्रैप करना

नेटवर्क ट्रैफ़िक में मज़बूत विसंगति का पता लगाना: CICIDS2017 पर मशीन लर्निंग मॉडल का मूल्यांकन

वैश्विक लिप्सचिट्ज़ नियमितीकरण के माध्यम से मजबूत व्यवहार क्लोनिंग

ग्रैन्युलर-बॉल-प्रेरित मल्टीपल कर्नेल K-मीन्स

ड्रामा-X: ड्राइविंग के लिए एक सूक्ष्म इरादे की भविष्यवाणी और जोखिम तर्क बेंचमार्क

एमएमईटी: कुशल पीडीई समाधान के लिए एक बहु-इनपुट और बहु-स्केल ट्रांसफार्मर

विस्तृत-सीमा एकल-इलेक्ट्रॉन क्वांटम चुंबकीय संवेदन के लिए दो-चरणीय अनुकूलन विधि

वैश्विक उप-मौसमी-से-मौसमी पूर्वानुमान के लिए भौतिकी-सूचित टेलीकनेक्शन-जागरूक ट्रांसफार्मर

गठबंधन निर्माण के लिए एआई-जनित समझौते

माइक्रोसर्विसेज के साथ एमएलओपीएस: समुद्री क्षेत्र पर एक केस स्टडी

बहुभिन्नरूपी संभाव्य समय श्रृंखला पूर्वानुमान के लिए विजेता-सभी-लेता है

दृश्य से परे छलांग: नैदानिक नोट्स के लिए सुदृढ़ तर्क संवर्धित पीढ़ी

निजी तौर पर निदान करना सीखना: रेडियोलॉजी रिपोर्ट वर्गीकरण के लिए डीपी-संचालित एलएलएम

HERGC: बहुविध ज्ञान ग्राफ़ के लिए विषम विशेषज्ञ प्रतिनिधित्व और जनरेटिव पूर्णता

वर्बल वेयरवोल्फ: वर्बलाइज्ड एजेंटिक वेयरवोल्फ गेम फ्रेमवर्क के साथ उपयोगकर्ताओं को जोड़ें

MaCP: पदानुक्रमित कोसाइन प्रक्षेपण के माध्यम से न्यूनतम लेकिन शक्तिशाली अनुकूलन

CADRE: गोपनीयता-संरक्षण संघीय शिक्षा में डेटा तत्परता का अनुकूलन योग्य आश्वासन

एफपी4 ऑल द वे: एलएलएम का पूर्णतः क्वांटाइज्ड प्रशिक्षण

विशेषज्ञ मॉडल एकीकरण के साथ जेलब्रेक हमलों के विरुद्ध LLM आउटपुट में सुधार

बेयसियन नेटवर्क पैरामीटरीकरण के लिए बड़े भाषा मॉडल से संभाव्य ज्ञान निकालना

रिजकट: रिंग्स और वेजेज के साथ ग्राफ विभाजन सीखना

एकसमान हानि बनाम विशिष्ट अनुकूलन: बहु-कार्य सीखने में एक तुलनात्मक विश्लेषण

क्या एलएलएम-आधारित वित्तीय निवेश रणनीतियाँ दीर्घकाल में बाज़ार से बेहतर प्रदर्शन कर सकती हैं?

डिफ्यूजन एमआरआई ट्रैक्टोग्राफी में श्वेत पदार्थ के आकार की भविष्यवाणी के लिए एक बहुविध गहन शिक्षण दृष्टिकोण

स्पार्सिटी ने कम-शॉट अनुकूलन में निम्न-रैंक अनुमानों को पीछे छोड़ दिया

द्विदिशात्मक पदानुक्रमित प्रोटीन बहु-मोडल प्रतिनिधित्व सीखना

प्रशिक्षण के बाद एलएलएम को कैसे नया रूप दिया जाता है: ज्ञान, सत्यता, इनकार और आत्मविश्वास पर एक यंत्रवत दृष्टिकोण

$\Mu$KE: बड़े भाषा मॉडल का मातृयोश्का असंरचित ज्ञान संपादन

RGB वीडियो से 3D-गॉसियन सिमुलेटर सीखना

एकल प्रदर्शनों से अनुकूली निपुणतापूर्ण पकड़ सीखना

स्वप्रतिगामी विचार श्रृंखला के साथ सीखने का एक सिद्धांत

फ़नग्राफ़: भाषा-प्रेरित दृश्य इंटरैक्शन के लिए कार्यात्मकता-सचेत 3D दृश्य ग्राफ़

पुनः उपयोग से पूर्वानुमान तक: टेलरसीर्स के साथ प्रसार मॉडल में तेजी लाना

एलिमेंट्रीनेट: सामान्य-रूप वाले खेलों में मानव व्यवहार की भविष्यवाणी करने के लिए एक गैर-रणनीतिक तंत्रिका नेटवर्क

एलएलएम के बीच सामूहिक तर्क: बिना किसी ठोस आधार के उत्तर सत्यापन हेतु एक रूपरेखा

एआई-संचालित चिकित्सा छवि संश्लेषण को आगे बढ़ाना: CLIP, फाइन-ट्यून्ड स्टेबल डिफ्यूजन और ड्रीम-बूथ + LoRA का उपयोग करते हुए MedVQA-GI चुनौती से अंतर्दृष्टि

इंटरैक्टिव बहु-विषय सहयोग से स्क्रीनिंग साक्षात्कारों में अवसाद की भविष्यवाणी करना

मल्टी-एजेंट लार्ज लैंग्वेज मॉडल सिस्टम पर आधारित स्कीमा-निर्देशित दृश्य-ग्राफ़ तर्क

एमक्वांट: पूर्ण स्थैतिक क्वांटीकरण के माध्यम से बहुविधीय वृहद भाषा मॉडलों की अनुमान क्षमता को उन्मुक्त करना

स्केलेबल डीप कूपमैन प्रेडिक्टिव कंट्रोल के साथ मिश्रित यातायात प्रवाह में यातायात दोलनों को कम करना

वोट रिगिंग द्वारा चैटबॉट क्षेत्र में अपने मॉडल की रैंकिंग में सुधार करें

फिट-प्रिंट: लक्षित फिंगरप्रिंट के माध्यम से झूठे दावों से बचाव हेतु मॉडल स्वामित्व सत्यापन की दिशा में

पुनःभारन के साथ सॉफ्टप्लस अटेंशन बड़े भाषा मॉडल में लंबाई एक्सट्रपलेशन को बढ़ाता है

एरेनफुच्ट-हौस्लर रैंक और विचार श्रृंखला

वेबवॉकर: वेब ट्रैवर्सल में एलएलएम की बेंचमार्किंग

सेल-एनीमेशन के लिए जनरेटिव एआई: एक सर्वेक्षण

बुद्धिमान और सुरक्षित क्लाउड की ओर: बड़े भाषा मॉडल से सशक्त सक्रिय रक्षा

अस्थायी रूप से मजबूत क्षण पुनर्प्राप्ति के लिए लंबाई-जागरूक DETR के साथ मोमेंटमिक्स संवर्द्धन

POEX: LLM-आधारित रोबोटों के विरुद्ध नीतिगत निष्पादन योग्य जेलब्रेक हमलों की ओर

बी-वीएलएलएम: संतुलित स्थानिक-कालिक टोकन के साथ एक विज़न लार्ज लैंग्वेज मॉडल

LoRA.rar: विषय-शैली वातानुकूलित छवि निर्माण के लिए हाइपरनेटवर्क के माध्यम से LoRAs को मर्ज करना सीखना

संभाव्यता परिदृश्यों की तीक्ष्णता के माध्यम से जनरेटिव मॉडल में स्मरणशक्ति को समझना और कम करना

सामान्य दर्शकों के लिए वैज्ञानिक पाठ के AI-संचालित वैयक्तिकरण का संचालन

कंटेंट-अवेयर टिम्बर एन्सेम्बल और कंडीशनल फ्लो मैचिंग के माध्यम से जीरो-शॉट वॉयस रूपांतरण

कुशलEQA: मुक्त-शब्दावली आधारित प्रश्नोत्तर के लिए एक कुशल दृष्टिकोण

यूओएमओ: वायरलेस नेटवर्क अनुकूलन के लिए मोबाइल ट्रैफ़िक पूर्वानुमान का एक सार्वभौमिक मॉडल

हवाई दृष्टि-भाषा नेविगेशन में एलएलएम तर्क को बढ़ाने के लिए स्थानिक प्रतिनिधित्व की खोज

बड़े भाषा मॉडल के लिए मशीन अनलर्निंग पर एक करीबी नज़र

कुशल अनुकूलन के लिए IoT-सक्षम कैमरा ट्रैप में वन्यजीव मॉडलों का इन-सीटू फाइन-ट्यूनिंग

अत्यधिक लेबल-कुशल नैदानिक फेनोटाइपिंग के लिए ईईजी-भाषा पूर्व-प्रशिक्षण

अतिरिक्त भाषा मिश्रण अनुपात के इष्टतम चयन के साथ लामा-3 70B पर प्रशिक्षण के बाद का अभ्यास

क्यू-लर्निंग के माध्यम से पुरस्कार-निर्देशित स्कोर-आधारित प्रसार मॉडल

विचार श्रृंखला अभी भी तेजी से सोचती है: APriCoT धीमी गति से सोचने में मदद करता है

मॉडल मोएर्जिंग पर एक सर्वेक्षण: सहयोगात्मक शिक्षण के लिए विशिष्ट विशेषज्ञों के बीच पुनर्चक्रण और रूटिंग

एआई-एआई पूर्वाग्रह: बड़े भाषा मॉडल बड़े भाषा मॉडल द्वारा उत्पन्न संचार का पक्ष लेते हैं

LVBench: एक अत्यंत लंबा वीडियो समझने वाला बेंचमार्क

स्पाइक्स से हेवी टेल्स तक: न्यूरल नेटवर्क के स्पेक्ट्रल विकास का अनावरण

खंडित कांच, विफल कैमरे: स्वायत्त ड्राइविंग प्रणालियों के लिए भौतिकी-आधारित प्रतिकूल नमूनों का अनुकरण

जनरेटिव एआई में रनटाइम मॉनिटरिंग और सशर्त निष्पक्षता का प्रवर्तन

सुदृढीकरण सीखने में अमूर्तता और क्षमता-आधारित पुरस्कार आकार देने की नमूना दक्षता पर

भावनाओं और लौकिक सीमाओं को संरेखित करके वीडियो साउंडट्रैक निर्माण

Created by

Haebom

लेखक

सेरकन सुलुन, पाउला वियाना, मैथ्यू ईपी डेविस

रूपरेखा

EMSYNC एक वीडियो-आधारित प्रतीकात्मक संगीत निर्माण मॉडल है जो वीडियो की भावनात्मक सामग्री और समय-सीमाओं के अनुरूप संगीत उत्पन्न करता है। यह दो-चरणीय ढाँचे का अनुसरण करता है: एक पूर्व-प्रशिक्षित वीडियो भावना वर्गीकारक भावनात्मक विशेषताओं को निकालता है, और एक सशर्त संगीत जनरेटर इन भावनात्मक और समय-सीमा संकेतों के आधार पर MIDI अनुक्रम उत्पन्न करता है। विशेष रूप से, हम एक नवीन समय-सीमा अनुकूलन तंत्र, सीमा ऑफसेट, प्रस्तुत करते हैं जो संगीत रागों की भविष्यवाणी और दृश्य संक्रमणों के साथ संरेखण को सक्षम बनाता है। मौजूदा मॉडलों के विपरीत, हम घटना-आधारित एन्कोडिंग बनाए रखते हैं, जिससे सूक्ष्म समय नियंत्रण और अभिव्यंजक संगीत सूक्ष्मताएँ सुनिश्चित होती हैं। इसके अलावा, हम एक वीडियो भावना वर्गीकारक, जो असतत भावनात्मक श्रेणियाँ उत्पन्न करता है, और एक भावना-सशर्त MIDI जनरेटर, जो निरंतर संयोजकता-उत्तेजना इनपुट पर कार्य करता है, के बीच संबंध के लिए एक मानचित्रण योजना प्रस्तावित करते हैं। व्यक्तिपरक श्रवण परीक्षणों में, EMSYNC ने संगीत सिद्धांत-प्रेमी और आकस्मिक श्रोताओं, दोनों के लिए सभी व्यक्तिपरक मापों में अत्याधुनिक मॉडलों से बेहतर प्रदर्शन किया।

Takeaways, Limitations

•

Takeaways:

◦

हम एक नया मॉडल प्रस्तुत करते हैं जो ऐसा संगीत उत्पन्न करता है जो वीडियो की भावनात्मक विषय-वस्तु और समय-सीमा से सटीक रूप से मेल खाता है।

◦

सीमा ऑफसेट के माध्यम से परिष्कृत लौकिक संरेखण और संगीत सूक्ष्मता।

◦

घटना-आधारित एनकोडिंग रखरखाव के माध्यम से सूक्ष्म समय नियंत्रण।

◦

व्यक्तिपरक श्रवण परीक्षणों में अत्याधुनिक मॉडलों से बेहतर प्रदर्शन करता है।

◦

असतत भावना श्रेणियों और निरंतर-मूल्यवान वैलेंस-उत्तेजना इनपुट के बीच एक प्रभावी मानचित्रण योजना का प्रस्ताव।

•

Limitations:

◦

इस शोधपत्र में विशेष रूप से Limitations का उल्लेख नहीं किया गया है। मॉडल के सामान्यीकरण प्रदर्शन, विभिन्न वीडियो शैलियों पर इसकी प्रयोज्यता, कम्प्यूटेशनल लागत और अन्य Limitations को स्पष्ट करने के लिए आगे के विश्लेषण और मूल्यांकन की आवश्यकता है।

पीडीएफ देखें

Made with Slashpage