Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

ImportSnare: Tấn công "Code Manual" có chủ đích trong việc tạo mã tăng cường truy xuất

Created by
  • Haebom

Tác giả

Kai Ye, Liangcai Su, Chenxiong Qian

Phác thảo

Bài báo này trình bày một nghiên cứu về các lỗ hổng của Search-Augmented Generation (RAG) trong việc tạo mã dựa trên mô hình ngôn ngữ quy mô lớn (LLM), cụ thể là các cuộc tấn công chiếm đoạt phụ thuộc độc hại. Chúng tôi chứng minh tiềm năng khai thác LLM và lòng tin của nhà phát triển bằng cách đưa các phụ thuộc độc hại vào quá trình tạo mã dựa trên RAG (RACG) bằng các tài liệu độc hại. Để đạt được điều này, chúng tôi đề xuất một khuôn khổ tấn công mới, được gọi là ImportSnare, kết hợp tìm kiếm chùm tia nhận biết vị trí để thao túng thứ hạng của các tài liệu độc hại và các đề xuất quy nạp đa ngôn ngữ để thao túng LLM nhằm đề xuất các phụ thuộc độc hại. Chúng tôi chứng minh bằng thực nghiệm rằng ImportSnare đạt tỷ lệ thành công cao (trên 50% đối với các thư viện phổ biến như matplotlib và seaborn) trên nhiều ngôn ngữ khác nhau, bao gồm Python, Rust và JavaScript, và hiệu quả ngay cả ở tỷ lệ độc hại thấp (0,01%). Điều này làm nổi bật các rủi ro chuỗi cung ứng của quá trình phát triển dựa trên LLM và cho thấy nhu cầu tăng cường bảo mật trong quá trình tạo mã. Các điểm chuẩn và bộ dữ liệu đa ngôn ngữ sẽ được công khai.

Takeaways, Limitations

Takeaways:
Làm nổi bật rõ ràng các lỗ hổng bảo mật của việc tạo mã dựa trên LLM, đặc biệt là nguy cơ bị tấn công phụ thuộc độc hại khi tận dụng RAG.
Thực nghiệm chứng minh tính khả thi của một cuộc tấn công tiêm phụ thuộc độc hại hiệu quả bằng cách sử dụng khuôn khổ ImportSnare.
Nhấn mạnh nhu cầu tăng cường bảo mật chuỗi cung ứng trong môi trường phát triển dựa trên LLM.
Hỗ trợ đa ngôn ngữ và tỷ lệ tấn công thành công cho nhiều ngôn ngữ lập trình khác nhau.
Các chuẩn mực và bộ dữ liệu đa ngôn ngữ sẽ được công bố cho mục đích nghiên cứu trong tương lai.
Limitations:
Cuộc tấn công hiện đang được đề xuất giả định sự phụ thuộc vào một gói phần mềm độc hại cụ thể. Cần nghiên cứu để phát triển các kỹ thuật tấn công tổng quát cho nhiều loại hoạt động độc hại khác nhau.
Nghiên cứu về các kỹ thuật phòng thủ chống lại ImportSnare vẫn còn thiếu. Cần có thêm nghiên cứu về các chiến lược phòng thủ và giảm thiểu tấn công.
Cần phải xác nhận thêm về tỷ lệ thành công và hiệu quả của cuộc tấn công trong các tình huống thực tế.
👍