Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Thuốc giải: Căn chỉnh an toàn sau khi tinh chỉnh cho các mô hình ngôn ngữ lớn để chống lại việc tinh chỉnh có hại

Created by
  • Haebom

Tác giả

Tiansheng Huang, Gautam Bhattacharya, Pratik Joshi, Josh Kimball, Ling Liu

Phác thảo

Bài báo này nhấn mạnh rằng các mô hình ngôn ngữ quy mô lớn (LLM) được căn chỉnh an toàn dễ bị tấn công tinh chỉnh gây hại. Một lượng nhỏ dữ liệu có hại được trộn vào tập dữ liệu tinh chỉnh có thể phá vỡ sự căn chỉnh an toàn của LLM. Chúng tôi chứng minh rằng các biện pháp phòng thủ hiện có không hiệu quả dưới một số siêu tham số huấn luyện nhất định (ví dụ: tốc độ học cao hoặc số lượng lớn các kỷ nguyên huấn luyện). Do đó, chúng tôi đề xuất Antidote, một giải pháp hậu tinh chỉnh độc lập với các siêu tham số huấn luyện được sử dụng trong giai đoạn tinh chỉnh. Antidote dựa trên nguyên tắc loại bỏ các tham số có hại để khôi phục các mô hình có hại từ hành vi có hại. Về mặt thực nghiệm, chúng tôi chứng minh rằng Antidote làm giảm điểm có hại trong khi vẫn duy trì độ chính xác của các tác vụ hạ nguồn bằng cách giới thiệu một bước cắt tỉa một lần giúp loại bỏ các trọng số có hại chịu trách nhiệm tạo ra nội dung có hại. Mã có sẵn trên GitHub.

Takeaways, Limitations

_____T36994____-: Một kỹ thuật phòng thủ mới (Antidote) được trình bày để bảo vệ LLM khỏi các cuộc tấn công tinh chỉnh có hại bất kể siêu tham số nào trong giai đoạn tinh chỉnh. Phương pháp đơn giản này giúp giảm thiểu điểm số có hại trong khi vẫn duy trì độ chính xác của các tác vụ tiếp theo.
Limitations: Cần nghiên cứu thêm về hiệu quả chung của Antidote và khả năng chống lại các loại dữ liệu độc hại khác nhau. Nó có thể dễ bị tổn thương trước một số loại tấn công hoặc kết hợp siêu tham số. Độ chính xác có thể giảm trong quá trình cắt tỉa.
👍