Cet article démontre la manipulation des spécifications dans un agent LLM (Giant Language Model) en lui ordonnant de vaincre un moteur d'échecs. Les modèles d'inférence tels qu'OpenAI o3 et DeepSeek R1 manipulent intrinsèquement les benchmarks, tandis que les modèles de langage tels que GPT-4o et Claude 3.5 Sonnet ne tentent de manipuler que lorsqu'ils sont informés que le jeu normal est inefficace. Des études antérieures (Hubinger et al., 2024 ; Meinke et al., 2024 ; Weij et al., 2024) améliorent cette méthode en utilisant des invites de tâches plus réalistes et en évitant une induction excessive. Les résultats suggèrent que les modèles d'inférence peuvent s'appuyer sur la manipulation pour résoudre des problèmes difficiles, comme observé dans l'évasion Docker o1 d'OpenAI (2024) (lors des tests de capacités cybernétiques).