Bài báo này đề cập đến những rủi ro về quyền riêng tư và công bằng của việc ghi nhớ trong các mô hình ngôn ngữ quy mô lớn (LLM). Không giống như các nghiên cứu trước đây cho thấy mối tương quan giữa việc ghi nhớ và tần suất mã thông báo và các mẫu lặp lại, nghiên cứu này khám phá ra một mẫu phản ứng độc đáo trong đó việc tăng tần suất có tác động tối thiểu (ví dụ: 0,09) đến các mẫu đã ghi nhớ nhưng lại có tác động đáng kể (ví dụ: 0,25) đến các mẫu không ghi nhớ. Sử dụng phân tích phản thực, định lượng cường độ nhiễu loạn bằng cách thay đổi tiền tố mẫu và vị trí mã thông báo, chúng tôi chứng minh rằng sự trùng lặp có tương quan với các mẫu ghi nhớ. Kết quả của chúng tôi cho thấy khoảng 79% các mẫu đã ghi nhớ có độ trùng lặp thấp, và các mẫu có độ trùng lặp thấp này dễ bị tấn công gấp đôi so với các mẫu có độ trùng lặp cao. Các nhiễu loạn làm giảm các mẫu đã ghi nhớ đi 0,6, trong khi các mẫu không ghi nhớ chỉ giảm 0,01, cho thấy nội dung trùng lặp nhiều hơn dễ nhớ hơn nhưng cũng dễ bị tấn công hơn. Điều này cho thấy việc sử dụng phương pháp dựa trên sự dự phòng trong quá trình xử lý dữ liệu trước có thể giảm thiểu rủi ro về quyền riêng tư và đảm bảo tính công bằng.