Este artículo aborda el problema de seguridad de los modelos lingüísticos a gran escala (LLM), especialmente aquellos relacionados con la respuesta a preguntas socialmente perjudiciales. Demostramos experimentalmente que los modelos alineados pueden verse comprometidos por un ajuste fino adicional, a pesar de los esfuerzos previos para mejorar la seguridad. Revelamos que esta vulnerabilidad se deriva de la sensibilidad del subespacio de bajo rango relacionado con la seguridad en los parámetros LLM al ajuste fino, y con base en esta perspectiva, proponemos un novedoso método sin entrenamiento, la Extrapolación de Bajo Rango (LoX). LoX mejora la robustez de la seguridad al extrapolar el subespacio de seguridad de los LLM alineados. Los resultados experimentales muestran que LoX mejora significativamente la robustez frente a ataques de ajuste fino dañinos o maliciosos, a la vez que mantiene la adaptabilidad del modelo a nuevas tareas. Por ejemplo, LoX reduce la tasa de éxito de ataque (ASR) frente a ataques de ajuste fino dañinos o maliciosos entre un 11% y un 54%. Al examinar el panorama de parámetros de ASR, explicamos que el éxito de LoX se debe a que la extrapolación desplaza los parámetros LLM a una región más plana, haciéndolos menos sensibles a las perturbaciones. El código está disponible en github.com/VITA-Group/LoX에서.