Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Los árboles impiden ver el bosque: invocar heurísticas y sesgos para provocar elecciones irracionales en los LLM

Created by
  • Haebom

Autor

Haoming Yang, Ke Ma, Xiaojun Jia, Yingfei Sun, Qianqian Xu, Qingming Huang

Describir

En este artículo, proponemos ICRT, un novedoso marco de ataque de fuga de información que elude los mecanismos de seguridad de los modelos de lenguaje a gran escala (LLM). A diferencia de estudios previos que se basan en la optimización aleatoria o el diseño manual, ICRT induce eficazmente resultados maliciosos al reducir la complejidad de las indicaciones maliciosas y aumentar la consistencia semántica mediante el aprovechamiento de la heurística y los sesgos de la cognición humana (efecto de simplificación, sesgo de relevancia). Además, presentamos una novedosa métrica de evaluación de la nocividad basada en rangos que cuantifica exhaustivamente la nocividad del contenido generado mediante métodos de agregación de rangos como Elo, HodgeRank y Rank Centrality. Los resultados experimentales muestran que ICRT elude sistemáticamente los mecanismos de seguridad de los principales LLM y genera contenido de alto riesgo, lo que proporciona información sobre los riesgos de los ataques de fuga de información y contribuye al desarrollo de estrategias de defensa más robustas.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo marco de ataque de jailbreak, ICRT, que aprovecha la heurística y los sesgos de la cognición humana.
Proponer un índice de evaluación de toxicidad basado en rangos que vaya más allá del método binario convencional de éxito/fracaso.
Proporciona información práctica sobre los riesgos de los ataques de jailbreak al eludir los mecanismos de seguridad de LLM y generar contenido de alto riesgo.
Contribuir al desarrollo de una estrategia de defensa de seguridad LLM más sólida.
Limitations:
Se necesitan más investigaciones para determinar la generalización del marco propuesto.
Se necesita una amplia experimentación con diferentes LLM y definiciones de riesgos.
Falta de propuestas específicas para estrategias de defensa efectivas para la ICRT.
👍