Bài báo này trình bày VIBMA, một kỹ thuật tấn công cửa hậu mới cho các tác nhân di động dựa trên Mô hình Ngôn ngữ Trực quan (VLM). VIBMA chèn một cửa hậu bằng cách chỉ thao tác đầu vào trực quan mà không thay đổi văn bản đầu vào. Việc thêm các mẫu hình ảnh cụ thể (trigger) sẽ kích hoạt các hành động độc hại do kẻ tấn công chỉ định. Chúng tôi đã thiết kế ba biến thể trigger—bản vá tĩnh, mẫu chuyển động động và nội dung hỗn hợp độ trong suốt thấp—để mô phỏng các kịch bản tấn công thực tế. Các thử nghiệm sử dụng sáu ứng dụng Android và ba VLM tương thích với thiết bị di động đã chứng minh tỷ lệ thành công cao (lên đến 94,67%) và duy trì hoạt động bình thường (lên đến 95,85%). Nghiên cứu này là nghiên cứu đầu tiên phát hiện ra các lỗ hổng bảo mật và tấn công cửa hậu trong các tác nhân di động, nhấn mạnh nhu cầu phòng thủ mạnh mẽ cho các đường ống thích ứng của tác nhân di động.