दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

पायविज़न: डायनेमिक टूलिंग के साथ एजेंटिक विज़न

Created by
  • Haebom

लेखक

शितियान झाओ, हाओक्वान झांग, शाओहेंग लिन, मिंग ली, किलोंग वू, काइपेंग झांग, चेन वेई

रूपरेखा

यह शोधपत्र PyVision प्रस्तुत करता है, जो दृश्य तर्क में बड़े पैमाने के भाषा मॉडल (LLM) की सीमाओं को दूर करने के लिए एक इंटरैक्टिव, बहु-मोड़ ढाँचा है। PyVision, LLM को किसी दिए गए कार्य के अनुरूप स्वचालित रूप से पायथन-आधारित उपकरणों को उत्पन्न, निष्पादित और परिष्कृत करने की अनुमति देकर लचीले और व्याख्यात्मक समस्या समाधान को सक्षम बनाता है। हम PyVision द्वारा उत्पन्न उपकरणों का एक वर्गीकरण विकसित करते हैं और विभिन्न बेंचमार्क में उनके उपयोग का विश्लेषण करते हैं। प्रायोगिक परिणाम दर्शाते हैं कि PyVision लगातार प्रदर्शन लाभ प्राप्त करता है, जिसमें GPT-4.1 पर V* प्रदर्शन में 7.8% सुधार और क्लाउड-4.0-सोनेट पर VLMsAreBlind-मिनी प्रदर्शन में 31.1% सुधार शामिल है। यह दर्शाता है कि गतिशील उपकरण उपयोग मॉडलों को केवल उपकरणों का आविष्कार करने से आगे जाने में सक्षम बनाता है, जिससे अधिक स्वायत्त दृश्य तर्क प्राप्त होता है।

Takeaways, Limitations

Takeaways:
एलएलएम-आधारित दृश्य तर्क में प्रदर्शन सुधार: PyVision के साथ GPT-4.1 और क्लाउड-4.0-सोनेट मॉडल के दृश्य तर्क प्रदर्शन में सुधार हुआ।
गतिशील उपकरण निर्माण और उपयोग की संभावना प्रस्तुत करना: एलएलएम आवश्यकतानुसार उपकरणों के निर्माण और उपयोग के लिए एक नया प्रतिमान प्रस्तुत करता है।
लचीला और व्याख्या योग्य समस्या समाधान: PyVision अधिक लचीला और व्याख्या योग्य दृश्य तर्क सक्षम बनाता है।
स्व-निर्देशित दृश्य तर्क प्रणाली के विकास की संभावना: एलएलएम केवल उपकरणों का उपयोग करने से आगे बढ़कर एक अधिक स्व-निर्देशित प्रणाली बनने की संभावना को प्रदर्शित करता है, जो समस्याओं को हल करने के लिए उपकरणों का निर्माण और उपयोग करती है।
Limitations:
PyVision के सामान्यीकरण प्रदर्शन और विभिन्न दृश्य अनुमान समस्याओं पर प्रयोज्यता पर आगे अनुसंधान की आवश्यकता है।
पायथन-आधारित उपकरणों पर निर्भरता के कारण मापनीयता की सीमाएं।
उत्पन्न उपकरण की सुरक्षा और विश्वसनीयता को सत्यापित करने की आवश्यकता है।
ये विशिष्ट मॉडलों (GPT-4.1, क्लाउड-4.0-सॉनेट) के लिए मूल्यांकन परिणाम हैं, तथा अन्य मॉडलों के लिए सामान्यीकरण निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है।
👍