Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Bảo vệ LVLM khỏi các cuộc tấn công thị giác thông qua giám sát nhận thức một phần

Created by
  • Haebom

Tác giả

Kỳ Châu, Tianlin Li, Qing Guo, Dongxia Wang, Yun Lin, Yang Liu, Jin Song Dong

Phác thảo

Bài báo này đề cập đến lỗ hổng của các mô hình ngôn ngữ thị giác quy mô lớn (LVLM) trước các hình ảnh đầu vào bị chèn hoặc thay đổi một cách ác ý. Các phương pháp phòng thủ hiện có giải quyết các cuộc tấn công thị giác dễ bị sửa đổi hình ảnh (cắt xén một phần), nhưng những sửa đổi này tạo ra các hình ảnh một phần và làm méo mó ngữ nghĩa, làm giảm chất lượng phản hồi đối với hình ảnh sạch sau khi bỏ phiếu. Thay vì sử dụng trực tiếp các phản hồi hình ảnh một phần để bỏ phiếu, bài báo này đề xuất một phương pháp giám sát các phản hồi LVLM đối với hình ảnh gốc. Chúng tôi đề xuất một phương pháp hộp đen, không cần đào tạo, được gọi là giám sát nhận biết một phần (DPS), sử dụng các phản hồi được tạo ra bởi một mô hình chỉ nhận dạng các hình ảnh một phần để cung cấp lời nhắc cho mô hình. DPS cho phép mô hình điều chỉnh các phản hồi của nó dựa trên sự hiểu biết hình ảnh một phần của nó khi bị tấn công, đồng thời tự tin duy trì các phản hồi ban đầu của nó đối với các đầu vào sạch. Kết quả thực nghiệm chứng minh rằng một mô hình yếu có thể giám sát một mô hình mạnh. Mô hình mạnh, khi bị tấn công, sẽ mất đi sự tự tin và điều chỉnh các phản hồi của nó dựa trên sự hiểu biết một phần của mô hình yếu, từ đó phòng thủ hiệu quả trước các cuộc tấn công. Trên sáu tập dữ liệu của ba mô hình phổ biến, chúng tôi chứng minh tỷ lệ thành công tấn công trung bình giảm 76,3%.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một kỹ thuật phòng thủ mới chống lại các cuộc tấn công đối nghịch vào các mô hình ngôn ngữ thị giác quy mô lớn bằng cách tận dụng thông tin hình ảnh một phần.
Chúng tôi khắc phục những hạn chế của các phương pháp phòng thủ dựa trên bỏ phiếu hiện có và đưa ra phương pháp hiệu quả để phòng thủ chống lại các cuộc tấn công mà không làm giảm chất lượng phản hồi của hình ảnh sạch.
Chúng tôi trình bày một cách tiếp cận độc đáo để giám sát một mô hình mạnh bằng cách tận dụng một mô hình yếu.
Nó chứng minh hiệu suất phòng thủ cao trên nhiều tập dữ liệu và mô hình khác nhau.
Limitations:
Cần nghiên cứu thêm để xác định liệu phương pháp DPS được đề xuất có hiệu quả chống lại mọi loại tấn công thị giác hay không.
Hiệu suất phòng thủ có thể bị suy giảm trước một số loại hình ảnh cục bộ hoặc một số vectơ tấn công.
Vì đây là phương pháp hộp đen nên có thể không hiểu rõ cơ chế hoạt động bên trong của mô hình.
Cần phải xác nhận thêm về khả năng áp dụng trong môi trường thực tế.
👍