Cet article aborde l'insuffisance des mesures existantes de confidentialité des données pour protéger les informations implicites, contextuelles ou inférables (définies ici comme confidentialité sémantique), alors que les modèles de langage à grande échelle (LLM) sont de plus en plus déployés dans des domaines sensibles. Cet article présente un cadre centré sur le cycle de vie qui analyse comment les risques de confidentialité sémantique surviennent lors des étapes de traitement des entrées, de pré-apprentissage, de réglage fin et d'alignement des LLM à l'aide de SoK. Nous catégorisons les principaux vecteurs d'attaque et évaluons comment les mécanismes de défense actuels, tels que la confidentialité différentielle, le chiffrement intégré, l'informatique de pointe et le désapprentissage, contrent ces menaces. Notre analyse révèle de graves lacunes dans la protection au niveau sémantique, notamment contre l'inférence contextuelle et les fuites potentielles de représentation. Nous abordons des défis ouverts tels que la quantification des fuites sémantiques, la protection des entrées multimodales, l'équilibre entre la désidentification et la qualité de génération, et la garantie de la transparence dans l'application de la confidentialité. Nous souhaitons éclairer les recherches futures sur la conception de techniques robustes et sémantiquement respectueuses de la confidentialité pour les LLM.