यह पत्र वेबपृष्ठ परिवेशों के साथ अंतःक्रिया करने वाले बहुविधीय वृहद्-स्तरीय भाषा मॉडल (MLLM)-आधारित वेब एजेंटों के विरुद्ध एक पर्यावरण शीघ्र इंजेक्शन आक्रमण (EnvInjection) का प्रस्ताव करता है। मौजूदा हमलों की सीमाओं, जिनमें उनकी प्रभावशीलता और गुप्तता, और वास्तविक-विश्व परिवेशों में उनकी अव्यवहारिकता शामिल है, को दूर करने के लिए, हम एक नवीन आक्रमण तकनीक प्रस्तुत करते हैं जो रेंडर किए गए वेबपृष्ठों के अपरिष्कृत पिक्सेल मानों में गड़बड़ी उत्पन्न करती है ताकि वेब एजेंट हमलावर द्वारा चयनित एक विशिष्ट क्रिया (लक्ष्य क्रिया) करने के लिए प्रेरित हो सके। अपरिष्कृत पिक्सेल मानों और स्क्रीनशॉट के बीच अविभेदनीय मैपिंग की कठिनाई को दूर करने के लिए, हम एक तंत्रिका नेटवर्क को प्रशिक्षित करते हैं जो मैपिंग का अनुमान लगाता है और अनुकूलन समस्या को हल करने के लिए प्रक्षेपित ग्रेडिएंट अवरोहण लागू करता है। विविध वेबपृष्ठ डेटासेट पर व्यापक मूल्यांकन दर्शाता है कि EnvInjection मौजूदा आधारभूत मॉडलों से बेहतर प्रदर्शन करता है।