En este artículo, descubrimos que, al alinear modelos lingüísticos a gran escala (LLM) con valores humanos mediante Optimización de Preferencias Directas (OPD), el uso de datos de generación multimodelo mejora el rendimiento general de la tarea, pero, en cambio, degrada el rendimiento de seguridad. En particular, confirmamos que la tasa de éxito de ataque (ASR) para los avisos de jailbreaking aumenta cuando se utiliza un modelo potente como GPT-4o para generar respuestas preferidas y rechazadas. Descubrimos que el uso de datos de generación de un solo modelo supera significativamente el uso de datos de generación multimodelo en términos de seguridad, y analizamos que esto se debe a que el modelo utiliza pistas superficiales en lugar de internalizar las restricciones de seguridad debido a la alta separabilidad lineal de los datos multimodelo. Respaldamos esta conclusión con resultados experimentales en las familias de modelos Llama, Mistral y Qwen.