[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

SEALGuard: Protección de conversaciones multilingües en idiomas del sudeste asiático para sistemas de software LLM

Created by
  • Haebom

Autor

Wenliang Shan, Michael Fu, Rui Yang, Chakkrit Tantithamthavorn

Describir

En este artículo, proponemos SEALGuard, una protección multilingüe, para abordar las limitaciones de las protecciones existentes de modelos lingüísticos a gran escala (LLM) (p. ej., LlamaGuard) que carecen de compatibilidad multilingüe. SEALGuard se desarrolló utilizando SEALSBench, un conjunto de datos multilingües a gran escala alineados con la seguridad, compuesto por 10 idiomas, incluyendo idiomas con recursos limitados. Mediante la técnica de Adaptación de Bajo Rango (LoRA), aplicamos un modelo lingüístico multilingüe general como protección multilingüe y, mediante una evaluación comparativa con LlamaGuard, confirmamos su rendimiento superior frente a avisos maliciosos multilingües e intentos de jailbreak. En particular, a diferencia de LlamaGuard, cuyo rendimiento se deteriora en avisos maliciosos e intentos de jailbreak en idiomas distintos del inglés (disminución del 9% y el 18% en DSR), SEALGuard logra un rendimiento superior en DSR, precisión y puntuación F1 (incremento del 48% en DSR en comparación con LlamaGuard). Además, analizamos la contribución de las estrategias de adaptación y el tamaño del modelo al rendimiento mediante estudios de ablación.

Takeaways, Limitations

Takeaways:
Presentamos SEALGuard, un dispositivo de seguridad multilingüe que resuelve eficazmente el problema de la falta de soporte multilingüe de los dispositivos de seguridad LLM existentes.
Sentar las bases para la investigación de seguridad LLM multilingüe mediante la creación de un conjunto de datos de alineación de seguridad multilingüe SEALSBench
Presentación de un método para construir un dispositivo de seguridad multilingüe eficiente utilizando LoRA
Contribuir a mejorar la seguridad del LLM en un entorno multilingüe
Limitations:
Necesidad de ampliar la diversidad de idiomas y tipos de indicaciones en el conjunto de datos SEALSBench
Necesidad de validación del rendimiento de generalización para nuevos tipos de mensajes maliciosos e intentos de jailbreak
Necesidad de una evaluación adicional del rendimiento y la eficiencia cuando se aplica a los sistemas LLM reales
👍