Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

LoX: Phép ngoại suy bậc thấp củng cố tính an toàn của LLM trước việc tinh chỉnh

Created by
  • Haebom

Tác giả

Gabriel J. Perin, Runjin Chen, Xuxi Chen, Nina ST Hirata, Zhangyang Wang, Junyuan Hong

Phác thảo

Bài báo này đề cập đến vấn đề an toàn của các mô hình ngôn ngữ quy mô lớn (LLM), đặc biệt là những mô hình liên quan đến việc trả lời các câu hỏi có hại cho xã hội. Chúng tôi chứng minh bằng thực nghiệm rằng các mô hình được căn chỉnh có thể bị xâm phạm bởi việc tinh chỉnh bổ sung bất chấp những nỗ lực trước đó nhằm cải thiện độ an toàn. Chúng tôi phát hiện ra rằng lỗ hổng này bắt nguồn từ độ nhạy của không gian con hạng thấp liên quan đến an toàn trong các tham số LLM đối với việc tinh chỉnh, và dựa trên hiểu biết này, chúng tôi đề xuất một phương pháp mới không cần đào tạo, Ngoại suy hạng thấp (LoX). LoX cải thiện độ mạnh mẽ của an toàn bằng cách ngoại suy không gian con an toàn của các LLM được căn chỉnh. Kết quả thực nghiệm cho thấy LoX cải thiện đáng kể độ mạnh mẽ trước các cuộc tấn công tinh chỉnh có hại hoặc ác ý, đồng thời duy trì khả năng thích ứng của mô hình với các tác vụ mới. Ví dụ, LoX làm giảm tỷ lệ thành công của cuộc tấn công (ASR) trước các cuộc tấn công tinh chỉnh có hại hoặc ác ý từ 11% đến 54%. Bằng cách xem xét bối cảnh ASR của các tham số, chúng tôi giải thích rằng sự thành công của LoX là do phép ngoại suy di chuyển các tham số LLM đến một vùng phẳng hơn, khiến chúng ít nhạy cảm hơn với nhiễu động. Mã có sẵn tại _____T97956____-.

Takeaways, Limitations

Takeaways:
Giới thiệu LoX, một phương pháp mới không cần đào tạo để cải thiện tính an toàn của LLM.
Chúng tôi chứng minh bằng thực nghiệm rằng LoX có thể cải thiện đáng kể khả năng chống lại các cuộc tấn công độc hại hoặc tinh vi.
Nguyên nhân gốc rễ của lỗ hổng an toàn LLM được xác định là độ nhạy của không gian con có chiều thấp.
Trình bày hướng đi mới cho nghiên cứu cải tiến an toàn LLM.
Limitations:
Hiệu suất của LoX dựa trên kết quả thử nghiệm cho các tập dữ liệu và mô hình cụ thể và cần nghiên cứu thêm về khả năng khái quát hóa.
Hiệu quả của LoX chống lại nhiều loại tấn công khác nhau và các phương pháp tinh chỉnh cần được xác minh.
Cần phải phân tích sâu hơn về chi phí tính toán và khả năng áp dụng của LoX.
👍