[공지사항]을 빙자한 안부와 근황 
Show more

Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

SEALGuard: Bảo vệ các cuộc hội thoại đa ngôn ngữ bằng các ngôn ngữ Đông Nam Á cho các hệ thống phần mềm LLM

Created by
  • Haebom

Tác giả

Wenliang Shan, Michael Fu, Rui Yang, Chakkrit Tantithamthavorn

Phác thảo

Bài báo này trình bày SEALGuard, một biện pháp bảo vệ đa ngôn ngữ nhằm mục đích cải thiện tính an toàn của các mô hình ngôn ngữ quy mô lớn (LLM) trong môi trường đa ngôn ngữ. Biện pháp bảo vệ hiện có, LlamaGuard, có độ chính xác phát hiện cao đối với các đầu vào không an toàn được viết bằng tiếng Anh, nhưng có Limitations là dễ bị tổn thương trước các đầu vào đa ngôn ngữ. Để giải quyết vấn đề này, chúng tôi xây dựng SEALSBench, một tập dữ liệu đa ngôn ngữ được căn chỉnh an toàn quy mô lớn bao gồm hơn 260.000 lời nhắc bao gồm 10 ngôn ngữ và phát triển SEALGuard, điều chỉnh một mô hình ngôn ngữ đa ngôn ngữ chung thành một biện pháp bảo vệ đa ngôn ngữ bằng cách sử dụng điều chỉnh mức thấp (LoRA). Kết quả thử nghiệm cho thấy SEALGuard vượt trội hơn LlamaGuard trong việc phát hiện các lời nhắc không an toàn đa ngôn ngữ và lời nhắc bẻ khóa, và đạt hiệu suất tốt nhất về DSR, độ chính xác và điểm F1. Ngoài ra, chúng tôi phân tích tác động của chiến lược điều chỉnh và quy mô mô hình đến hiệu suất của SEALGuard thông qua các nghiên cứu cắt bỏ. Cuối cùng, chúng tôi phát hành các mô hình và điểm chuẩn được đào tạo trước để hỗ trợ các nghiên cứu sâu hơn.

Takeaways, Limitations

Takeaways:
Giới thiệu SEALGuard, một thiết bị bảo vệ đa ngôn ngữ mới góp phần cải thiện tính bảo mật của LLM trong môi trường đa ngôn ngữ.
Thể hiện hiệu suất phát hiện nhanh chóng an toàn đa ngôn ngữ vượt trội so với các phương pháp hiện có.
Giới thiệu SEALSBench, một bộ dữ liệu căn chỉnh an toàn đa ngôn ngữ quy mô lớn.
Trình bày một phương pháp điều chỉnh mô hình hiệu quả bằng cách sử dụng điều chỉnh mức thấp (LoRA).
Limitations:
Số lượng và loại ngôn ngữ có trong tập dữ liệu SEALSBench có thể bị giới hạn (10 ngôn ngữ).
Nó có thể không đề cập đầy đủ đến các mối đe dọa an ninh khác nhau trong thế giới thực.
Xác minh hiệu suất tổng quát là cần thiết cho các loại lời nhắc không an toàn mới hoặc kỹ thuật bẻ khóa.
Cần nghiên cứu thêm để tối ưu hóa chi phí tính toán và quy mô mô hình.
👍