Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Bảo mật các tác nhân AI bằng Kiểm soát luồng thông tin

Created by
  • Haebom

Tác giả

Manuel Costa, Boris K opf, Aashish Kolluri, Andrew Paverd, Mark Russinovich, Ahmed Salem, Shruti Tople, Lukas Wutschitz, Santiago Zanella-B eguelin

Phác thảo

Bài báo này khám phá việc tận dụng Kiểm soát Luồng Thông tin (IFC) để bảo vệ chống lại các lỗ hổng như tiêm mã nhanh chóng nhằm bảo mật cho các tác nhân AI ngày càng tự chủ và có năng lực. Chúng tôi trình bày một mô hình chính thức để suy ra tính bảo mật và khả năng biểu đạt của các trình lập kế hoạch tác nhân, mô tả các lớp thuộc tính có thể được thực thi bằng theo dõi nhiễm độc động, và xây dựng một phân loại tác vụ để đánh giá sự đánh đổi về bảo mật và tiện ích của các thiết kế trình lập kế hoạch. Dựa trên khám phá này, chúng tôi trình bày Fides, một trình lập kế hoạch theo dõi các nhãn bảo mật và toàn vẹn, thực thi các chính sách bảo mật một cách quyết định và giới thiệu các nguyên hàm mới để ẩn thông tin có chọn lọc. Các đánh giá trên AgentDojo chứng minh rằng phương pháp này có thể thực hiện một loạt các tác vụ trong khi vẫn duy trì các đảm bảo bảo mật. Hướng dẫn minh họa các khái niệm được giới thiệu trong bài báo này có thể được tìm thấy tại https://github.com/microsoft/fides .

Takeaways, Limitations

Takeaways:
Một phương pháp mới để tăng cường bảo mật chống lại các lỗ hổng như tiêm mã độc ngay lập tức vào tác nhân AI bằng cách sử dụng Kiểm soát luồng thông tin (IFC) được trình bày.
Chúng tôi cung cấp một mô hình chính thức và phân loại nhiệm vụ để suy ra tính bảo mật và khả năng biểu đạt của các tác nhân lập kế hoạch.
Phát triển và xác thực thử nghiệm một công cụ lập kế hoạch mới, Fides, có khả năng thực thi các chính sách bảo mật một cách quyết định và ẩn thông tin một cách có chọn lọc.
Kết quả thử nghiệm sử dụng AgentDojo chứng minh tính hữu ích và khả năng ứng dụng rộng rãi của Fides.
Limitations:
Cần có phân tích sâu hơn về hiệu suất và khả năng mở rộng của trình lập kế hoạch Fides.
Cần có thêm nghiên cứu về khả năng khái quát hóa trên nhiều loại tác nhân AI và môi trường tác vụ khác nhau.
Nhu cầu đánh giá khả năng chống lại các mối đe dọa và tấn công bảo mật phức tạp có thể phát sinh trong các ứng dụng thực tế.
Có thể cần thêm giải thích hoặc tài liệu hướng dẫn.
👍