[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

SEALGuard: Protección de conversaciones multilingües en idiomas del sudeste asiático para sistemas de software LLM

Created by
  • Haebom

Autor

Wenliang Shan, Michael Fu, Rui Yang, Chakkrit Tantithamthavorn

Describir

Este artículo presenta SEALGuard, una protección multilingüe que busca mejorar la seguridad de los modelos lingüísticos a gran escala (LLM) en entornos multilingües. LlamaGuard, la protección existente, presenta una alta precisión de detección para entradas inseguras escritas en inglés, pero presenta vulnerabilidades a las entradas multilingües. Para abordar esto, construimos SEALSBench, un conjunto de datos multilingües a gran escala con alineación segura que consta de más de 260 000 indicaciones que abarcan 10 idiomas, y desarrollamos SEALGuard, que adapta un modelo lingüístico multilingüe general a una protección multilingüe mediante adaptación de bajo nivel (LoRA). Los resultados experimentales muestran que SEALGuard supera a LlamaGuard en la detección de indicaciones inseguras multilingües e indicaciones de jailbreak, y logra el mejor rendimiento en DSR, precisión y puntuación F1. Además, analizamos el impacto de la estrategia de adaptación y el tamaño del modelo en el rendimiento de SEALGuard mediante estudios de ablación. Finalmente, publicamos modelos y puntos de referencia preentrenados para respaldar futuras investigaciones.

Takeaways, Limitations

Takeaways:
Presentamos SEALGuard, un nuevo dispositivo de protección multilingüe que contribuye a mejorar la seguridad de LLM en un entorno multilingüe.
Demuestra un rendimiento de detección de avisos de seguridad multilingües superior al de los métodos existentes.
Anunciamos SEALSBench, un conjunto de datos de alineación de seguridad multilingüe a gran escala.
Se presenta un método eficiente de adaptación de modelos utilizando adaptación de bajo nivel (LoRA).
Limitations:
La cantidad y los tipos de idiomas incluidos en el conjunto de datos SEALSBench pueden ser limitados (10 idiomas).
Es posible que no cubra completamente las diversas amenazas de seguridad en el mundo real.
Se necesita una verificación del rendimiento de generalización para nuevos tipos de indicaciones inseguras o técnicas de jailbreak.
Se necesita más investigación para optimizar el costo computacional y el tamaño del modelo.
👍