यह शोधपत्र PyVision प्रस्तुत करता है, जो दृश्य तर्क में बड़े पैमाने के भाषा मॉडल (LLM) की सीमाओं को दूर करने के लिए एक इंटरैक्टिव, बहु-मोड़ ढाँचा है। PyVision, LLM को किसी दिए गए कार्य के अनुरूप स्वचालित रूप से पायथन-आधारित उपकरणों को उत्पन्न, निष्पादित और परिष्कृत करने की अनुमति देकर लचीले और व्याख्यात्मक समस्या समाधान को सक्षम बनाता है। हम PyVision द्वारा उत्पन्न उपकरणों का एक वर्गीकरण विकसित करते हैं और विभिन्न बेंचमार्क में उनके उपयोग का विश्लेषण करते हैं। प्रायोगिक परिणाम दर्शाते हैं कि PyVision लगातार प्रदर्शन लाभ प्राप्त करता है, जिसमें GPT-4.1 पर V* प्रदर्शन में 7.8% सुधार और क्लाउड-4.0-सोनेट पर VLMsAreBlind-मिनी प्रदर्शन में 31.1% सुधार शामिल है। यह दर्शाता है कि गतिशील उपकरण उपयोग मॉडलों को केवल उपकरणों का आविष्कार करने से आगे जाने में सक्षम बनाता है, जिससे अधिक स्वायत्त दृश्य तर्क प्राप्त होता है।