Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

LoX: La extrapolación de bajo rango refuerza la seguridad de LLM frente al ajuste fino

Created by
  • Haebom

Autor

Gabriel J. Perin, Runjin Chen, Xuxi Chen, Nina ST Hirata, Zhangyang Wang, Junyuan Hong

Describir

Este artículo aborda el problema de seguridad de los modelos lingüísticos a gran escala (LLM), especialmente aquellos relacionados con la respuesta a preguntas socialmente perjudiciales. Demostramos experimentalmente que los modelos alineados pueden verse comprometidos por un ajuste fino adicional, a pesar de los esfuerzos previos para mejorar la seguridad. Revelamos que esta vulnerabilidad se deriva de la sensibilidad del subespacio de bajo rango relacionado con la seguridad en los parámetros LLM al ajuste fino, y con base en esta perspectiva, proponemos un novedoso método sin entrenamiento, la Extrapolación de Bajo Rango (LoX). LoX mejora la robustez de la seguridad al extrapolar el subespacio de seguridad de los LLM alineados. Los resultados experimentales muestran que LoX mejora significativamente la robustez frente a ataques de ajuste fino dañinos o maliciosos, a la vez que mantiene la adaptabilidad del modelo a nuevas tareas. Por ejemplo, LoX reduce la tasa de éxito de ataque (ASR) frente a ataques de ajuste fino dañinos o maliciosos entre un 11% y un 54%. Al examinar el panorama de parámetros de ASR, explicamos que el éxito de LoX se debe a que la extrapolación desplaza los parámetros LLM a una región más plana, haciéndolos menos sensibles a las perturbaciones. El código está disponible en github.com/VITA-Group/LoX에서.

Takeaways, Limitations

Takeaways:
Presentamos LoX, un nuevo método sin entrenamiento para mejorar la seguridad de LLM.
Demostramos experimentalmente que LoX puede mejorar significativamente la robustez contra ataques maliciosos o modificados.
La causa raíz de las vulnerabilidades de seguridad de LLM se identifica como la sensibilidad de los subespacios de baja dimensión.
Presentando una nueva dirección para la investigación de mejora de la seguridad LLM.
Limitations:
El rendimiento de LoX se basa en resultados experimentales para conjuntos de datos y modelos específicos, y se necesita más investigación sobre la generalización.
Es necesario verificar la eficacia de LoX contra varios tipos de ataques y métodos de ajuste.
Se necesita un análisis más profundo del costo computacional y la aplicabilidad de LoX.
👍