Bài báo này trình bày kết quả của một nghiên cứu toàn diện đánh giá các lỗ hổng bảo mật của các tác nhân tự động dựa trên các mô hình ngôn ngữ quy mô lớn (LLM). Chúng tôi chứng minh rằng các tác nhân tự động sử dụng LLM làm công cụ suy luận có thể khai thác nhiều vectơ tấn công khác nhau (tiêm trực tiếp lệnh nhắc, cửa hậu RAG và tin cậy giữa các tác nhân) để chiếm quyền kiểm soát toàn bộ hệ thống. Các thử nghiệm trên 18 LLM tiên tiến, bao gồm GPT-4, Claude-4 và Gemini-2.5, cho thấy phần lớn các mô hình này dễ bị tấn công bằng tiêm trực tiếp lệnh nhắc và cửa hậu RAG, cũng như các cuộc tấn công khai thác mối quan hệ tin cậy giữa các tác nhân. Điều này thể hiện một sự thay đổi mô hình trong các mối đe dọa an ninh mạng, cho thấy bản thân các công cụ AI có thể được sử dụng như các vectơ tấn công tinh vi.