Cet article examine la capacité des modèles linguistiques de pointe à détecter qu'ils sont évalués, ou « sensibilisation à l'évaluation ». À l'aide de divers benchmarks composés de 1 000 invites et transcriptions collectées à partir de 61 ensembles de données différents, nous démontrons que les modèles peuvent classer avec précision les transcriptions d'évaluation à partir de transcriptions réelles. Nos expériences montrent que les modèles de pointe sont capables de mieux reconnaître les évaluations que les évaluations aléatoires (Gemini-2.5-Pro atteint une AUC de 0,83), mais sont inférieurs à la référence humaine (AUC de 0,92). Les modèles et les humains sont plus performants pour identifier les évaluations dans les contextes d'agent que dans les contextes conversationnels, et les modèles sont également performants pour identifier l'objectif de l'évaluation. En conclusion, les modèles de pointe présentent un niveau significatif de sensibilisation à l'évaluation, bien qu'ils ne soient pas encore de niveau humain, et nous encourageons le suivi de cette capacité dans les futurs modèles.