यह शोधपत्र दृष्टि-भाषा-क्रिया (वीएलए) मॉडल की कमज़ोरियों का व्यवस्थित मूल्यांकन करता है, जिसने हाल ही में रोबोटिक्स के क्षेत्र में ध्यान आकर्षित किया है। वीएलए मॉडल दृश्य और भाषा इनपुट को एकीकृत करके जटिल कार्य कर सकता है, साथ ही यह एक नया आक्रमण क्षेत्र भी बनाता है। रोबोट निष्पादन की विशिष्ट आवश्यकताओं को समझते हुए, यह अध्ययन दो गैर-लक्षित आक्रमण उद्देश्यों का प्रस्ताव करता है: एक स्थानिक और कार्यात्मक विशेषताओं को लक्षित करना, और दूसरा रोबोट के पथ में हेरफेर करने वाले लक्षित आक्रमण को लक्षित करना। हमने एक प्रतिकूल पैच निर्माण विधि डिज़ाइन की है जो कैमरे के दृश्य क्षेत्र में छोटे, रंगीन पैच स्थापित करती है, जिससे नकली और वास्तविक, दोनों वातावरणों में आक्रमण प्रभावी ढंग से किया जा सकता है। प्रायोगिक परिणाम नकली रोबोट कार्यों में कार्य सफलता दर में 100% तक की कमी प्रदर्शित करते हैं, जो वर्तमान वीएलए आर्किटेक्चर की गंभीर सुरक्षा कमज़ोरियों को उजागर करता है। यह अध्ययन वीएलए-आधारित रोबोटिक प्रणालियों की सुरक्षा में सुधार के लिए समझ और मूल्यांकन मीट्रिक प्रस्तुत करता है और वास्तविक वातावरण में तैनाती से पहले लगातार मज़बूत रक्षा रणनीतियों को विकसित करने की आवश्यकता पर बल देता है।