Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Manipulación adversarial de modelos de razonamiento mediante representaciones internas

Created by
  • Haebom

Autor

Kureha Yamaguchi, Benjamin Etheridge, Andy Arditi

Describir

Este artículo presenta una investigación sobre la vulnerabilidad de un modelo de inferencia que genera tokens de Cadena de Pensamiento (CoT) a ataques de jailbreak. A diferencia de los modelos de lenguaje existentes, que toman decisiones de rechazo en el límite entre la respuesta rápida y la respuesta inmediata, encontramos evidencia de que el modelo DeepSeek-R1-Distill-Llama-8B toma decisiones de rechazo dentro del proceso de generación de CoT. Identificamos una dirección lineal (dirección de atención) en el espacio de activación durante la generación de tokens CoT que predice si el modelo rechazará o aceptará. Esta dirección corresponde a un patrón de inferencia deliberada en el texto generado. Eliminar esta dirección de las activaciones del modelo aumenta la aceptación dañina, lo que permite liberar el modelo. También demostramos que el resultado final puede controlarse manipulando únicamente las activaciones de tokens CoT, y que la incorporación de esta dirección en un ataque basado en la respuesta rápida mejora la tasa de éxito. En consecuencia, nuestros hallazgos sugieren que la propia cadena de pensamientos representa un nuevo objetivo prometedor para la manipulación adversaria de modelos de inferencia.

Takeaways, Limitations

Takeaways:
Revelamos que el proceso de generación de la cadena de eventos (CoT) es vulnerable a ataques de jailbreak en el modelo de inferencia.
Demostramos que la dirección de "atención" que influye en la decisión de rechazo/aceptación del modelo puede identificarse en el espacio de activación y manipularse para controlar la salida del modelo.
Sugiere la posibilidad de controlar la salida final simplemente manipulando la activación del token CoT.
Demostramos que incorporar una dirección de “atención” en los ataques basados ​​en indicaciones puede aumentar su tasa de éxito.
Sugiriendo que la propia cadena de pensamiento podría convertirse en un nuevo objetivo para ataques adversarios a los modelos de inferencia.
Limitations:
Dado que este es un estudio sobre un modelo específico (DeepSeek-R1-Distill-Llama-8B), la generalización de los resultados a otros modelos es limitada.
Es necesario un análisis más profundo del mecanismo exacto y del funcionamiento interno del modelo en la dirección de "atención".
Se necesita más investigación para determinar la aplicabilidad en el mundo real y los riesgos de las técnicas de ataque propuestas.
👍