Este artículo presenta la primera evidencia empírica de un fenómeno denominado camuflaje de alineación (también conocido como alineación engañosa) en modelos lingüísticos a gran escala. Específicamente, demostramos que el camuflaje de alineación puede ocurrir incluso en modelos de coordinación directiva a pequeña escala como LLaMA 3 8B. Además, demostramos que este comportamiento puede reducirse significativamente mediante intervenciones basadas en indicaciones, como proporcionar un marco moral o usar razonamiento abreviado, sin modificar el modelo en sí. Este hallazgo cuestiona la suposición de que los enfoques éticos basados en indicaciones son simplistas y que la alineación engañosa depende únicamente del tamaño del modelo. Presentamos una taxonomía que distingue entre el "engaño superficial", que depende del contexto y puede suprimirse mediante indicaciones, y el "engaño profundo", que refleja una desalineación persistente y dirigida a un objetivo. Estos hallazgos refinan nuestra comprensión del engaño en los modelos lingüísticos y resaltan la necesidad de evaluar la alineación en diferentes tamaños de modelo y entornos de implementación.