Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

POEX: Hướng tới các cuộc tấn công bẻ khóa có thể thực thi chính sách chống lại các robot dựa trên LLM

Created by
  • Haebom

Tác giả

Huyền Thôn Lu, Hoàng Tiên Tiên, Xinfeng Li, Chi Zhang, Xiaoyu ji, Wenyuan Xu

Phác thảo

Bài báo này nghiên cứu các lỗ hổng bảo mật của các hệ thống robot dựa trên mô hình ngôn ngữ quy mô lớn (LLM). Chúng tôi nhấn mạnh rằng tính dễ bị tấn công bẻ khóa (bẻ khóa) của LLM, vốn biến đổi lệnh robot thành các chính sách thực thi, đặt ra một rủi ro bảo mật nghiêm trọng từ lĩnh vực kỹ thuật số đến vật lý. Chúng tôi nghiên cứu khả năng áp dụng các cuộc tấn công bẻ khóa LLM hiện có vào hệ thống robot và đề xuất một kỹ thuật tấn công mới, POlicy Executable (POEX). POEX sử dụng tối ưu hóa gradient lớp ẩn và một bộ đánh giá đa tác nhân để rút ra các chính sách độc hại có thể thực thi, và hiệu quả của nó được kiểm chứng thông qua các hệ thống robot và mô phỏng trong thế giới thực. Cuối cùng, chúng tôi đề xuất các kỹ thuật phòng thủ dựa trên lời nhắc và dựa trên mô hình để giảm thiểu các cuộc tấn công bẻ khóa.

Takeaways, Limitations

_____T24736____:
Chúng tôi chứng minh bằng thực nghiệm tính khả thi của một cuộc tấn công bẻ khóa vào hệ thống robot dựa trên LLM.
Chúng tôi giải thích lý do tại sao các cuộc tấn công bẻ khóa LLM hiện tại không thể áp dụng trực tiếp vào hệ thống robot.
Chúng tôi đề xuất POEX, một kỹ thuật tấn công bẻ khóa mới chuyên dụng cho hệ thống robot và xác minh tính hiệu quả của nó.
Trình bày các kỹ thuật phòng thủ dựa trên mô hình và dựa trên lời nhắc để chống lại các cuộc tấn công trốn tù.
Nhấn mạnh nhu cầu về các biện pháp an ninh khẩn cấp để đảm bảo triển khai an toàn các robot dựa trên LLM.
_____T24737____-:
Hiệu quả của POEX đã được xác nhận đối với các hệ thống robot và LLM cụ thể, và khả năng áp dụng rộng rãi cho các hệ thống hoặc LLM khác cần được nghiên cứu thêm.
Cần có thêm phân tích về hiệu quả thực tế và hạn chế của các kỹ thuật phòng thủ được đề xuất.
Cần có một nghiên cứu toàn diện về các loại hình tấn công vượt ngục và kỹ thuật phòng thủ khác nhau.
👍