Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Más es menos: Las trampas de los datos de preferencias sintéticas multimodelo en la alineación de seguridad de DPO

Created by
  • Haebom

Autor

Yifan Wang, Runjin Chen, Bolian Li, David Cho, Yihe Deng, Ruqi Zhang, Tianlong Chen, Zhangyang Wang, Ananth Grama, Junyuan Hong

Describir

En este artículo, descubrimos que, al alinear modelos lingüísticos a gran escala (LLM) con valores humanos mediante Optimización de Preferencias Directas (OPD), el uso de datos de generación multimodelo mejora el rendimiento general de la tarea, pero, en cambio, degrada el rendimiento de seguridad. En particular, confirmamos que la tasa de éxito de ataque (ASR) para los avisos de jailbreaking aumenta cuando se utiliza un modelo potente como GPT-4o para generar respuestas preferidas y rechazadas. Descubrimos que el uso de datos de generación de un solo modelo supera significativamente el uso de datos de generación multimodelo en términos de seguridad, y analizamos que esto se debe a que el modelo utiliza pistas superficiales en lugar de internalizar las restricciones de seguridad debido a la alta separabilidad lineal de los datos multimodelo. Respaldamos esta conclusión con resultados experimentales en las familias de modelos Llama, Mistral y Qwen.

Takeaways, Limitations

Takeaways: Se sugiere que se consideren cuidadosamente las ventajas y desventajas del uso de datos generados por múltiples modelos para mejorar la seguridad de LLM mediante DPO. El uso de datos generados por un solo modelo puede ser más eficaz en términos de seguridad. Esto demuestra claramente que el uso de datos generados por múltiples modelos con un modelo sólido puede, de hecho, comprometer la seguridad.
Limitations: Este estudio se basa en resultados experimentales para una serie de modelos y un conjunto de datos específicos, por lo que su generalización a otros modelos o conjuntos de datos es limitada. Se requiere un análisis más profundo de las causas de la degradación de la seguridad de los datos generados por múltiples modelos. Se requiere investigación adicional sobre estrategias alternativas de DPO para mejorar la seguridad.
👍