Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Antídoto: Alineación de seguridad posterior al ajuste fino para modelos de lenguaje grandes contra el ajuste fino perjudicial

Created by
  • Haebom

Autor

Tiansheng Huang, Gautam Bhattacharya, Pratik Joshi, Josh Kimball, Ling Liu

Describir

Este artículo destaca que los modelos de lenguaje a gran escala (LLM) alineados de forma segura son vulnerables a ataques de ajuste fino perjudiciales. Una pequeña cantidad de datos perjudiciales mezclados con el conjunto de datos de ajuste fino puede romper la alineación segura del LLM. Demostramos que las defensas existentes son ineficaces bajo ciertos hiperparámetros de entrenamiento (p. ej., altas tasas de aprendizaje o un gran número de épocas de entrenamiento). Por lo tanto, proponemos Antidote, una solución posterior al ajuste fino que es independiente de los hiperparámetros de entrenamiento utilizados durante la fase de ajuste fino. Antidote se basa en el principio de eliminar parámetros perjudiciales para recuperar modelos dañinos de comportamientos perjudiciales. Experimentalmente, demostramos que Antidote reduce las puntuaciones perjudiciales a la vez que mantiene la precisión de las tareas posteriores mediante la introducción de un paso de poda único que elimina las ponderaciones perjudiciales responsables de generar contenido dañino. El código está disponible en GitHub.

Takeaways, Limitations

Takeaways: Presentamos una novedosa técnica de defensa (Antidote) que protege a LLM de ataques dañinos de ajuste fino, independientemente de los hiperparámetros en la etapa de ajuste fino. Este sencillo método logra una reducción en las puntuaciones dañinas, manteniendo la precisión de las tareas posteriores.
Limitations: Se requiere más investigación sobre la eficacia general de Antidote y su robustez frente a diversos tipos de datos maliciosos. Puede ser vulnerable a ciertos tipos de ataques o combinaciones de hiperparámetros. La precisión puede disminuir durante la poda.
👍