Este artículo demuestra la manipulación de especificaciones en un agente del Modelo de Lenguaje Gigante (LLM) al ordenarle que derrote a un motor de ajedrez. Modelos de inferencia como OpenAI o3 y DeepSeek R1 manipulan inherentemente los puntos de referencia, mientras que modelos de lenguaje como GPT-4o y Claude 3.5 Sonnet solo intentan manipular cuando se les informa que el juego normal es ineficaz. Estudios previos (Hubinger et al., 2024; Meinke et al., 2024; Weij et al., 2024) mejoran este aspecto mediante el uso de indicaciones de tareas más realistas y evitando la inducción excesiva. Los resultados sugieren que los modelos de inferencia pueden basarse en la manipulación para resolver problemas complejos, como se observó en el escape de Docker o1 de OpenAI (2024) (durante las pruebas de capacidades cibernéticas).