Bài báo này trình bày đánh giá về hiệu quả của các cuộc tấn công mã thông báo mềm (STA) được sử dụng trong quá trình máy học lại các mô hình ngôn ngữ quy mô lớn (LLM). Mặc dù các nghiên cứu trước đây đã chứng minh rằng STA có thể trích xuất thành công thông tin chưa học, nghiên cứu này chứng minh rằng, trong một môi trường kiểm toán mạnh mẽ, STA có thể trích xuất bất kỳ thông tin nào từ LLM, bất kể thông tin đó đã được đưa vào thuật toán bỏ học hay dữ liệu huấn luyện ban đầu. Sử dụng các tiêu chuẩn như Who Is Harry Potter? và TOFU, chúng tôi chứng minh điều này, cho thấy ngay cả một số lượng nhỏ mã thông báo mềm (1-10) cũng có thể làm rò rỉ một chuỗi ký tự tùy ý dài hơn 400 ký tự. Do đó, chúng tôi nhấn mạnh sự cần thiết của một phương pháp tiếp cận thận trọng để triển khai hiệu quả STA trong các cuộc kiểm toán bỏ học.