Bài báo này tập trung vào các mối đe dọa bảo mật do việc sử dụng rộng rãi các mô hình ngôn ngữ quy mô lớn (LLM), đặc biệt là các cuộc tấn công bẻ khóa và rò rỉ dữ liệu. Chúng tôi lưu ý rằng việc tạo truy xuất tăng cường (RAG), giúp tăng cường nhận thức theo ngữ cảnh trong LLM, cũng tạo ra các lỗ hổng bảo mật cho việc rò rỉ thông tin nhạy cảm. Do đó, chúng tôi trình bày một phương pháp phân tích dữ liệu tương tác lịch sử trong các hệ thống LLM để tạo ra các bản đồ sử dụng theo chủ đề cụ thể (bao gồm cả đối kháng). Phương pháp này cung cấp thông tin pháp y để theo dõi sự phát triển của các mẫu tấn công bẻ khóa. Hơn nữa, chúng tôi đề xuất LeakSealer, một khuôn khổ độc lập với mô hình, kết hợp phân tích tĩnh để tìm hiểu sâu về mặt pháp y với các biện pháp phòng thủ động của quy trình con người trong vòng lặp (HITL). LeakSealer xác định các nhóm chủ đề và phát hiện các mẫu bất thường, cho phép các cơ chế phòng thủ chủ động. Chúng tôi đánh giá LeakSealer bằng thực nghiệm trong hai kịch bản: các nỗ lực bẻ khóa (sử dụng tập dữ liệu chuẩn công khai) và rò rỉ PII (sử dụng tập dữ liệu được chọn lọc về các tương tác LLM được gắn nhãn). Trong các thiết lập tĩnh, LeakSealer đạt được độ chính xác và khả năng thu hồi cao nhất khi xác định các lần tiêm mã độc nhanh chóng vào tập dữ liệu ToxicChat. Trong các thiết lập động, nó đạt được AUPRC là 0,97 để phát hiện rò rỉ PII, vượt trội hơn đáng kể so với các mô hình cơ sở như Llama Guard.