[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Los ataques de manipulación de modelos permiten evaluaciones más rigurosas de las capacidades de LLM

Created by
  • Haebom

Autor

Zora Che, Stephen Casper, Robert Kirk, Anirudh Satheesh, Stewart Slocum, Lev E McKinney, Rohit Gandikota, Aidan Ewart, Domenic Rosati, Zichu Wu, Zikui Cai, Bilal Chughtai, Yarin Gal, Furong Huang, Dylan Hadfield-Menell

Describir

Este artículo estudia cómo integrar la evaluación de riesgos y capacidades de los modelos de lenguaje a gran escala (LLM) en los marcos de gestión y gobernanza de riesgos de la IA. Señalamos las limitaciones de los métodos actuales de evaluación de entrada-salida (la imposibilidad de una evaluación de riesgos completa y realista y la presentación únicamente de los límites inferiores del comportamiento de entrada-salida en el peor de los casos) y proponemos un método de evaluación complementario que utiliza ataques de manipulación de modelos mediante activación latente o modificación de pesos. Evaluamos técnicas de vanguardia para la eliminación de características dañinas de LLM utilizando cinco ataques de espacio de entrada y seis ataques de manipulación de modelos, y demostramos que la robustez del modelo existe en un subespacio de robustez de baja dimensión, y que la tasa de éxito de los ataques de manipulación de modelos proporciona una estimación conservadora de la tasa de éxito de los ataques de espacio de entrada de retención. También demostramos que los métodos de desaprendizaje de vanguardia pueden invalidarse fácilmente en 16 pasos de ajuste fino. En conclusión, destacamos la dificultad de suprimir las características dañinas de LLM y demostramos que los ataques de manipulación de modelos permiten evaluaciones mucho más rigurosas que los ataques de espacio de entrada por sí solos.

Takeaways, Limitations

Takeaways:
Presentamos un método novedoso para evaluar de forma más rigurosa el riesgo de LLM mediante ataques de manipulación de modelos.
Las tasas de éxito de los ataques de manipulación de modelos se pueden utilizar para predecir las tasas de éxito de los ataques al espacio de entrada.
Destacando la dificultad de garantizar la seguridad del LLM demostrando la vulnerabilidad de las técnicas de desaprendizaje de última generación.
Demostramos que la robustez de LLM existe en subespacios de baja dimensión.
Limitations:
Se necesitan más investigaciones para determinar la generalización del método de ataque de manipulación del modelo propuesto.
Se necesitan experimentos con tipos más diversos de LLM y técnicas de ataque.
Falta de discusión sobre la aplicabilidad en el mundo real y las cuestiones éticas de los ataques de manipulación de modelos.
👍