Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Khi âm thanh hay trở nên đối nghịch: Bẻ khóa các mô hình ngôn ngữ âm thanh bằng đầu vào lành tính

Created by
  • Haebom

Tác giả

Bodam Kim, Hiskias Dingeto, Taeyoun Kwon, Dasol Choi, Donggeon Lee, Haon Park, Jaehoon Lee, Jongho Shin

Phác thảo

Bài báo này trình bày một lỗ hổng mới trong các tương tác dựa trên âm thanh với các mô hình ngôn ngữ quy mô lớn (LLM) và giới thiệu WhisperInject, một khuôn khổ tấn công mới khai thác nó. WhisperInject thao túng các LLM âm thanh tiên tiến bằng cách sử dụng các nhiễu loạn âm thanh tinh vi, không thể nhận biết được của con người để tạo ra nội dung độc hại. Khuôn khổ hai giai đoạn này sử dụng học tăng cường và giảm dần độ dốc dự kiến ​​(RL-PGD) trong giai đoạn đầu tiên để bỏ qua các giao thức an toàn của mô hình và tạo ra các phản hồi thô độc hại. Trong giai đoạn thứ hai, giảm dần độ dốc dự kiến ​​(PGD) được sử dụng để nhúng các phản hồi độc hại vào âm thanh lành tính (ví dụ: câu hỏi về thời tiết, lời chào, v.v.). Nhắm mục tiêu vào các mô hình Qwen2.5-Omni-3B, Qwen2.5-Omni-7B và Phi-4-Multimodal, chúng tôi đạt được tỷ lệ thành công hơn 86% trong các khuôn khổ đánh giá an toàn nghiêm ngặt bao gồm StrongREJECT, LlamaGuard và đánh giá của con người. Nghiên cứu này trình bày một mối đe dọa mới dựa trên âm thanh, vượt ra ngoài các cuộc tấn công lý thuyết và chứng minh một phương pháp thao túng AI thực tế và bí mật.

Takeaways, Limitations

Takeaways:
Phát hiện lỗ hổng mới trong tương tác LLM dựa trên âm thanh.
Giới thiệu khuôn khổ WhisperInject, một phương pháp thao túng AI thực tế và bí mật.
Đã Chứng minh được tỷ lệ thành công cao theo khuôn khổ đánh giá an toàn chặt chẽ.
Nhu cầu tăng cường bảo mật LLM dựa trên âm thanh được nêu ra.
Limitations:
Hiện tại chỉ giới hạn ở việc xác minh hiệu quả tấn công cho các mô hình LLM cụ thể.
Cần nghiên cứu thêm để xác định mức độ mạnh mẽ của cuộc tấn công chống lại nhiều môi trường âm thanh và tiếng ồn khác nhau.
Cần nghiên cứu thêm về các kỹ thuật phòng thủ WhisperInject.
👍