[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Un enfoque generativo para la detección de nocividad de LLM con tokens de bandera roja especiales

Created by
  • Haebom

Autor

Sophie Xhonneux, David Dobre, Mehrnaz Mofakhami, Leo Schwinn, Gauthier Gidel

Describir

Este artículo presenta un método novedoso para mejorar la seguridad de los modelos de lenguaje a gran escala (LLM). Los métodos de entrenamiento de seguridad existentes suelen basarse en el ajuste fino, lo que obliga al modelo a rechazar respuestas a solicitudes maliciosas, lo que suele provocar un rendimiento deficiente. En este artículo, proponemos un método para añadir un token especial, denominado "token de bandera roja", al vocabulario del modelo y entrenarlo para que lo inserte en las respuestas cuando se genere o sea probable que se genere contenido malicioso. Este método permite al modelo aprender explícitamente el concepto de nocividad, manteniendo su utilidad, y proporciona la misma robustez que el entrenamiento adversarial al evaluar cada respuesta generada. Además, encapsulamos el ajuste de seguridad mediante módulos LoRA, lo que proporciona una defensa adicional contra ataques de API de ajuste fino.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo método de educación en seguridad que puede aliviar el problema de degradación del rendimiento, que es una limitación de los métodos de ajuste existentes.
Aprenda explícitamente el concepto de nocividad aprovechando los tokens de bandera roja y mantenga la utilidad del modelo.
Proporciona robustez a nivel de entrenamiento adversario, al tiempo que permite realizar entrenamiento sin ejecutar ataques adversarios.
Proporciona capacidades adicionales de defensa contra ataques API a través de módulos LoRA.
Limitations:
Se necesita más investigación para utilizar eficazmente los Red Flag Tokens.
Se necesitan evaluaciones de desempeño generalizadas para diferentes tipos de peligros.
Se necesita más análisis sobre la efectividad real y las limitaciones de la defensa utilizando módulos LoRA.
Es posible que aún tenga una eficacia limitada para ciertos tipos de solicitudes dañinas.
👍