Bài báo này đánh giá một cách có hệ thống các lỗ hổng của mô hình Thị giác-Ngôn ngữ-Hành động (VLA), một mô hình gần đây đã thu hút sự chú ý trong lĩnh vực robot. Mặc dù mô hình VLA có thể thực hiện các nhiệm vụ phức tạp bằng cách tích hợp các đầu vào hình ảnh và ngôn ngữ, nhưng nó cũng tạo ra một bề mặt tấn công mới. Nhận thức được những yêu cầu đặc biệt của việc thực thi robot, nghiên cứu này đề xuất hai mục tiêu tấn công không nhắm mục tiêu: một mục tiêu nhắm vào các đặc điểm không gian và chức năng, và mục tiêu còn lại nhắm vào một cuộc tấn công có mục tiêu nhằm thao túng đường đi của robot. Chúng tôi thiết kế một phương pháp tạo bản vá đối kháng, đặt các bản vá nhỏ, nhiều màu sắc vào trường nhìn của camera, thực hiện tấn công hiệu quả trong cả môi trường mô phỏng và thực tế. Kết quả thử nghiệm cho thấy tỷ lệ thành công của nhiệm vụ trong các nhiệm vụ robot mô phỏng giảm tới 100%, làm nổi bật các lỗ hổng bảo mật nghiêm trọng của kiến trúc VLA hiện tại. Nghiên cứu này trình bày các số liệu đánh giá và hiểu biết để cải thiện tính an toàn của các hệ thống robot dựa trên VLA và nhấn mạnh sự cần thiết phải liên tục phát triển các chiến lược phòng thủ mạnh mẽ trước khi triển khai trong môi trường thực tế.