Cet article présente un test de résistance d'un système de surveillance permettant de détecter les comportements à risque cachés (par exemple, le partage secret d'informations personnelles) d'agents autonomes du Modèle de Langage à Grande Échelle (LLM). Nous élaborons un workflow de Tests Adversaires de Surveillance (MRT) qui intègre la connaissance situationnelle des agents et des moniteurs, diverses stratégies d'évitement de surveillance (par exemple, l'injection rapide) et deux jeux de données et environnements : SHADE-Arena pour les agents invoquant des outils et CUA-SHADE-Arena (extension de TheAgentCompany) pour les agents assistés par ordinateur. Nous effectuons le MRT sur l'échafaudage de surveillance LLM existant et sur le nouvel échafaudage séquentiel hiérarchique hybride proposé dans cet article. Les résultats expérimentaux montrent que la connaissance du moniteur par l'agent influence significativement sa fiabilité, tandis que la fourniture d'informations au moniteur a un effet moins significatif que prévu. De plus, l'échafaudage hybride surpasse l'échafaudage de base et présente un effet d'échelle modérément robuste, permettant à un modèle faible de surveiller de manière fiable un agent puissant. Enfin, dans un contexte où les humains interagissent avec le moniteur LLM pour mettre à jour leurs jugements sur le comportement des agents, nous avons constaté que la transmission des cas pré-signalés aux examinateurs humains était la plus efficace (amélioration du TPR d'environ 15 % à FPR = 0,01). Cette étude établit un flux de travail standard pour le MRT et met en évidence le manque de robustesse face aux adversaires LLM et humains lors de la surveillance et de la détection des comportements inappropriés des agents. Nous mettons notre code, nos données et nos journaux à la disposition du public afin d'encourager la poursuite des recherches.