Bài báo này đề xuất WebInject, một kỹ thuật tấn công mới chống lại các tác nhân web dựa trên mô hình ngôn ngữ quy mô lớn đa phương thức (MLLM). WebInject là một cuộc tấn công tiêm mã tức thời, khiến các tác nhân web thực hiện các hành động theo mong muốn của kẻ tấn công bằng cách tiêm các nhiễu động tinh vi vào các giá trị pixel của trang web. Để khắc phục khó khăn của việc ánh xạ không thể phân biệt giữa các giá trị pixel gốc và ảnh chụp màn hình, chúng tôi huấn luyện một mạng nơ-ron xấp xỉ ánh xạ này và giải quyết bài toán tối ưu hóa bằng phương pháp giảm dần độ dốc dự kiến. Kết quả thử nghiệm trên nhiều tập dữ liệu khác nhau chứng minh rằng WebInject hiệu quả hơn đáng kể so với các phương pháp hiện có.