Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

M2S: Bẻ khóa nhiều lượt thành một lượt trong Red Teaming dành cho LLM

Created by
  • Haebom

Tác giả

Junwoo Ha, Hyunjun Kim, Sangyoon Yu, Haon Park, Ashkan Yousefpour, Yuna Park, Suhyun Kim

Phác thảo

Bài báo này trình bày một khuôn khổ mới hợp nhất các lời nhắc "bẻ khóa" đối kháng nhiều vòng thành các truy vấn một vòng, giảm đáng kể công sức thủ công cần thiết cho việc kiểm thử đối kháng các mô hình ngôn ngữ quy mô lớn (LLM). Các cuộc bẻ khóa con người nhiều vòng đã cho thấy tỷ lệ thành công cao trong tấn công nhưng đòi hỏi nguồn nhân lực và thời gian đáng kể. Phương pháp nhiều vòng-một vòng (M2S) được đề xuất (Hyphenize, Numberize, Pythonize) định dạng lại một cách có hệ thống các cuộc hội thoại nhiều vòng thành các lời nhắc một vòng có cấu trúc. Mặc dù loại bỏ các tương tác lặp lại, những lời nhắc này vẫn duy trì và thường cải thiện hiệu quả đối kháng. Trong các đánh giá sâu rộng về bộ dữ liệu Bẻ khóa con người nhiều vòng (MHJ), phương pháp M2S đạt tỷ lệ thành công tấn công từ 70,6% đến 95,9% trên một số LLM hiện đại. Đáng chú ý, các lời nhắc một vòng vượt trội hơn cuộc tấn công nhiều vòng ban đầu tới 17,5 điểm phần trăm và giảm hơn một nửa mức sử dụng mã thông báo trung bình. Phân tích sâu hơn cho thấy việc nhúng các yêu cầu độc hại vào các cấu trúc như liệt kê hoặc mã sẽ khai thác "điểm mù ngữ cảnh" để vượt qua cả các biện pháp bảo vệ cơ bản và bộ lọc đầu vào/đầu ra bên ngoài. Khung M2S chuyển đổi các cuộc hội thoại nhiều vòng thành các lời nhắc ngắn gọn, chỉ trong một vòng, cung cấp một công cụ có khả năng mở rộng cho việc kiểm tra đối kháng quy mô lớn và phơi bày một điểm yếu quan trọng trong các biện pháp phòng thủ LLM hiện đại.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một phương pháp chuyển đổi hiệu quả các cuộc tấn công đối kháng nhiều vòng thành các cuộc tấn công một vòng, cải thiện đáng kể hiệu quả của thử nghiệm đối kháng LLM.
Chúng tôi chứng minh rằng lời nhắc một lượt đạt tỷ lệ thành công tấn công cao hơn lời nhắc nhiều lượt, qua đó làm lộ ra những lỗ hổng trong cơ chế phòng thủ hiện có.
Chúng tôi trình bày một kỹ thuật tấn công mới khai thác "điểm mù ngữ cảnh" của LLM.
Cung cấp một khuôn khổ có khả năng mở rộng cho thử nghiệm đối kháng trên quy mô lớn.
Limitations:
Cần nghiên cứu thêm để xác định khả năng tổng quát hóa của phương pháp M2S được đề xuất.
Nó chỉ có thể có hiệu quả đối với một số loại LLM hoặc một số loại tấn công đối nghịch nhất định.
Phương pháp M2S có thể không hiệu quả với tất cả các loại tấn công bẻ khóa. Cần đánh giá thêm để áp dụng cho nhiều loại tấn công hơn.
👍