Bài báo này đề cập đến sự thiếu hụt của các biện pháp bảo mật dữ liệu hiện có trong việc bảo vệ thông tin ngầm định, thông tin ngữ cảnh hoặc thông tin có thể suy luận (được định nghĩa trong bài báo này là bảo mật ngữ nghĩa) khi các mô hình ngôn ngữ quy mô lớn (LLM) ngày càng được triển khai trong các lĩnh vực nhạy cảm. Bài báo này trình bày một khuôn khổ lấy vòng đời làm trung tâm, phân tích cách thức rủi ro bảo mật ngữ nghĩa phát sinh trong quá trình xử lý đầu vào, tiền huấn luyện, tinh chỉnh và căn chỉnh của LLM sử dụng SoK. Chúng tôi phân loại các vectơ tấn công chính và đánh giá cách các cơ chế phòng thủ hiện tại, chẳng hạn như bảo mật khác biệt, mã hóa nhúng, điện toán biên và bỏ học, chống lại các mối đe dọa này. Phân tích của chúng tôi cho thấy những thiếu sót nghiêm trọng trong bảo vệ ở cấp độ ngữ nghĩa, đặc biệt là chống lại suy luận ngữ cảnh và rò rỉ biểu diễn tiềm ẩn. Chúng tôi giải quyết các thách thức chưa được giải quyết như định lượng rò rỉ ngữ nghĩa, bảo vệ đầu vào đa phương thức, cân bằng giữa việc loại bỏ nhận dạng và chất lượng tạo, đồng thời đảm bảo tính minh bạch trong việc thực thi quyền riêng tư, và chúng tôi mong muốn cung cấp thông tin cho các nghiên cứu trong tương lai về việc thiết kế các kỹ thuật bảo mật ngữ nghĩa mạnh mẽ, có nhận thức về mặt ngữ nghĩa cho LLM.