Bài báo này nhấn mạnh rằng các mô hình ngôn ngữ quy mô lớn (LLM) được căn chỉnh an toàn dễ bị tấn công tinh chỉnh gây hại. Một lượng nhỏ dữ liệu có hại được trộn vào tập dữ liệu tinh chỉnh có thể phá vỡ sự căn chỉnh an toàn của LLM. Chúng tôi chứng minh rằng các biện pháp phòng thủ hiện có không hiệu quả dưới một số siêu tham số huấn luyện nhất định (ví dụ: tốc độ học cao hoặc số lượng lớn các kỷ nguyên huấn luyện). Do đó, chúng tôi đề xuất Antidote, một giải pháp hậu tinh chỉnh độc lập với các siêu tham số huấn luyện được sử dụng trong giai đoạn tinh chỉnh. Antidote dựa trên nguyên tắc loại bỏ các tham số có hại để khôi phục các mô hình có hại từ hành vi có hại. Về mặt thực nghiệm, chúng tôi chứng minh rằng Antidote làm giảm điểm có hại trong khi vẫn duy trì độ chính xác của các tác vụ hạ nguồn bằng cách giới thiệu một bước cắt tỉa một lần giúp loại bỏ các trọng số có hại chịu trách nhiệm tạo ra nội dung có hại. Mã có sẵn trên GitHub.