Este artículo aborda la insuficiencia de las medidas de privacidad de datos existentes para proteger la información implícita, contextual o inferible (definida en este artículo como privacidad semántica) a medida que los modelos de lenguaje a gran escala (LLM) se implementan cada vez más en dominios sensibles. Este artículo presenta un marco centrado en el ciclo de vida que analiza cómo surgen los riesgos para la privacidad semántica durante las etapas de procesamiento de entrada, preentrenamiento, ajuste y alineación de los LLM que utilizan SoK. Categorizamos los principales vectores de ataque y evaluamos cómo los mecanismos de defensa actuales, como la privacidad diferencial, el cifrado integrado, la computación en el borde y el desaprendizaje, contrarrestan estas amenazas. Nuestro análisis revela graves deficiencias en la protección a nivel semántico, en particular contra la inferencia contextual y la posible fuga de representación. Abordamos desafíos pendientes, como la cuantificación de la fuga semántica, la protección de entradas multimodales, el equilibrio entre la desidentificación y la calidad de la generación, y la transparencia en la aplicación de la privacidad. Nuestro objetivo es contribuir a futuras investigaciones sobre el diseño de técnicas robustas y semánticamente conscientes que preserven la privacidad para los LLM.