Bài báo này đề cập đến vấn đề an toàn của các mô hình ngôn ngữ quy mô lớn (LLM), đặc biệt là những mô hình liên quan đến việc trả lời các câu hỏi có hại cho xã hội. Chúng tôi chứng minh bằng thực nghiệm rằng các mô hình được căn chỉnh có thể bị xâm phạm bởi việc tinh chỉnh bổ sung bất chấp những nỗ lực trước đó nhằm cải thiện độ an toàn. Chúng tôi phát hiện ra rằng lỗ hổng này bắt nguồn từ độ nhạy của không gian con hạng thấp liên quan đến an toàn trong các tham số LLM đối với việc tinh chỉnh, và dựa trên hiểu biết này, chúng tôi đề xuất một phương pháp mới không cần đào tạo, Ngoại suy hạng thấp (LoX). LoX cải thiện độ mạnh mẽ của an toàn bằng cách ngoại suy không gian con an toàn của các LLM được căn chỉnh. Kết quả thực nghiệm cho thấy LoX cải thiện đáng kể độ mạnh mẽ trước các cuộc tấn công tinh chỉnh có hại hoặc ác ý, đồng thời duy trì khả năng thích ứng của mô hình với các tác vụ mới. Ví dụ, LoX làm giảm tỷ lệ thành công của cuộc tấn công (ASR) trước các cuộc tấn công tinh chỉnh có hại hoặc ác ý từ 11% đến 54%. Bằng cách xem xét bối cảnh ASR của các tham số, chúng tôi giải thích rằng sự thành công của LoX là do phép ngoại suy di chuyển các tham số LLM đến một vùng phẳng hơn, khiến chúng ít nhạy cảm hơn với nhiễu động. Mã có sẵn tại _____T97956____-.