Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Tấn công mã thông báo mềm không thể kiểm tra đáng tin cậy việc bỏ học trong các mô hình ngôn ngữ lớn

Created by
  • Haebom

Tác giả

Haokun Chen, Sebastian Szyller, Weilin Xu, Nageen Himayat

Phác thảo

Bài báo này trình bày đánh giá về hiệu quả của các cuộc tấn công mã thông báo mềm (STA) được sử dụng trong quá trình máy học lại các mô hình ngôn ngữ quy mô lớn (LLM). Mặc dù các nghiên cứu trước đây đã chứng minh rằng STA có thể trích xuất thành công thông tin chưa học, nghiên cứu này chứng minh rằng, trong một môi trường kiểm toán mạnh mẽ, STA có thể trích xuất bất kỳ thông tin nào từ LLM, bất kể thông tin đó đã được đưa vào thuật toán bỏ học hay dữ liệu huấn luyện ban đầu. Sử dụng các tiêu chuẩn như Who Is Harry Potter? và TOFU, chúng tôi chứng minh điều này, cho thấy ngay cả một số lượng nhỏ mã thông báo mềm (1-10) cũng có thể làm rò rỉ một chuỗi ký tự tùy ý dài hơn 400 ký tự. Do đó, chúng tôi nhấn mạnh sự cần thiết của một phương pháp tiếp cận thận trọng để triển khai hiệu quả STA trong các cuộc kiểm toán bỏ học.

Takeaways, Limitations

Takeaways: Bằng cách trình bày rõ ràng những hạn chế và rủi ro của STA khi được sử dụng để kiểm tra các khóa học LLM (Lấy lại kiến ​​thức cũ), chúng tôi nhấn mạnh sự cần thiết phải phát triển các kỹ thuật lấy lại kiến ​​thức cũ an toàn và hiệu quả hơn. Bằng cách chứng minh các lỗ hổng của STA, chúng tôi đề xuất các hướng nghiên cứu về bảo mật dữ liệu và bảo vệ quyền riêng tư trong các khóa học LLM.
Limitations: Nghiên cứu này trình bày kết quả giới hạn trong một môi trường kiểm tra và chuẩn mực cụ thể. Cần nghiên cứu thêm về các kiến ​​trúc LLM, thuật toán bỏ học và các tập dữ liệu thực tế. Việc phân tích các kỹ thuật tấn công khác ngoài STA vẫn còn thiếu.
👍