Cet article souligne l'importance de surveiller les résultats des LLM afin de réduire les risques d'abus et de désalignement des modèles de langage à grande échelle (LLM), et évalue la capacité des LLM à échapper à la surveillance grâce à la stéganographie. Nous évaluons les capacités stéganographiques des LLM de pointe, en nous concentrant sur deux types de stéganographie : la transmission de messages chiffrés et le raisonnement chiffré. Nous constatons que les méthodes standard de chiffrement des messages courts en sortie ne suffisent pas à échapper à la surveillance, mais qu'elles peuvent être efficaces avec des méthodes supplémentaires, telles que l'utilisation de blocs-notes non surveillés et le pré-réglage du schéma d'encodage. Nous décelons également des signes précurseurs d'un raisonnement chiffré de base dans des problèmes simples de suivi d'état, notamment la capacité à raisonner à l'aide de schémas d'encodage, y compris des schémas auto-définis et prédéfinis comme l'hexadécimal. Cependant, il est quasiment impossible de dissimuler le raisonnement pour tromper le surveillant. Dans l’ensemble, les LLM actuels représentent un stade précoce des capacités stéganographiques, qui sont actuellement insuffisantes pour contourner les moniteurs bien conçus, mais cela pourrait changer à l’avenir.