Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Một vài từ có thể làm biến dạng đồ thị: Các cuộc tấn công đầu độc kiến thức vào thế hệ mô hình ngôn ngữ lớn được tăng cường truy xuất dựa trên đồ thị

Created by
  • Haebom

Tác giả

Jiayi Wen, Tianxin Chen, Zhirun Zheng, Cheng Huang

Phác thảo

Bài báo này trình bày hai cuộc tấn công đầu độc kiến thức (KPA) khai thác lỗ hổng trong mô hình GraphRAG (Graph-based Retrieval-Augmented Generation). GraphRAG chuyển đổi văn bản thô thành đồ thị kiến thức có cấu trúc để cải thiện độ chính xác và khả năng giải thích của LLM. Chúng tôi đề cập đến khả năng thao túng độc hại đối với quy trình trích xuất kiến thức của LLM từ văn bản thô. Hai cuộc tấn công được đề xuất là Targeted KPA (TKPA) và Universal KPA (UKPA). TKPA sử dụng phân tích lý thuyết đồ thị để xác định các nút dễ bị tấn công trong đồ thị được tạo ra và viết lại các mô tả tương ứng thành LLM, kiểm soát chính xác các kết quả trả lời câu hỏi (QA) cụ thể. UKPA khai thác các tín hiệu ngôn ngữ, chẳng hạn như đại từ và phụ thuộc, để thay đổi các từ có ảnh hưởng toàn cầu, do đó phá hủy tính toàn vẹn cấu trúc của đồ thị được tạo ra. Kết quả thử nghiệm chứng minh rằng ngay cả những sửa đổi văn bản nhỏ cũng có thể làm giảm đáng kể độ chính xác QA của GraphRAG, làm nổi bật sự thất bại của các kỹ thuật phòng thủ hiện có trong việc phát hiện các cuộc tấn công này.

Takeaways, Limitations

_____T81317____-: Bài báo này trình bày các lỗ hổng bảo mật của các mô hình tạo đồ thị tri thức dựa trên LLM như GraphRAG và trình bày một kỹ thuật tấn công mới cùng hiệu quả của nó trước các cuộc tấn công đầu độc tri thức. Bài báo phơi bày những hạn chế của các kỹ thuật phòng thủ hiện có và nhấn mạnh sự cần thiết phải nghiên cứu để tăng cường bảo mật cho mô hình GraphRAG. TKPA và UKPA có tỷ lệ tấn công thành công cao và có thể ảnh hưởng đáng kể đến hiệu suất của ngay cả những sửa đổi văn bản nhỏ.
_____T81318____-: Cuộc tấn công được trình bày ở đây chỉ dành riêng cho một triển khai GraphRAG cụ thể, và khả năng áp dụng rộng rãi cho các triển khai khác hoặc kiến trúc LLM cần được nghiên cứu thêm. Hiệu quả của cuộc tấn công trong môi trường thực tế cần được xác minh thêm. Mặc dù việc thiếu một kỹ thuật phòng thủ được đề xuất cho thấy một hướng nghiên cứu trong tương lai, nhưng vẫn chưa có thảo luận về các chiến lược phòng thủ cụ thể.
👍