[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Automatización de la dirección para modelos lingüísticos grandes multimodales seguros

Created by
  • Haebom

Autor

Lyucheng Wu, Mengru Wang, Ziwen Xu, Tri Cao, Nay Oo, Bryan Hooi, Shumin Deng

Describir

En este artículo, proponemos AutoSteer, una técnica de arbitraje en tiempo de inferencia para mejorar la seguridad de los modelos lingüísticos multimodales a gran escala (MLLM). AutoSteer consta de tres componentes principales: Puntuación de Conciencia de Seguridad (SAS), sondas de seguridad adaptativas y cabezales de rechazo ligeros, sin necesidad de realizar ajustes finos en los modelos subyacentes. SAS identifica automáticamente las diferencias relevantes para la seguridad entre las capas de un modelo, las sondas de seguridad adaptativas estiman la probabilidad de resultados perjudiciales en las representaciones intermedias y los cabezales de rechazo ajustan selectivamente la generación al detectar riesgos de seguridad. Los resultados experimentales con LLaVA-OV y Chameleon muestran que AutoSteer reduce significativamente la tasa de éxito de ataques (ASR) contra amenazas textuales, visuales y multimodales, manteniendo la funcionalidad general.

Takeaways, Limitations

Takeaways:
Proporcionamos un marco eficaz e interpretable para mejorar la seguridad en la etapa de inferencia de MLLM.
Se puede mejorar la seguridad sin necesidad de ajustar el modelo base.
Mejora eficazmente la seguridad contra varios tipos de amenazas multimodo.
Presentamos un enfoque práctico para la implementación segura de sistemas de IA multimodales en el mundo real.
Limitations:
Se requiere mayor investigación para determinar el rendimiento de generalización del método propuesto. Es posible que se requieran experimentos exhaustivos con diversos MLLM y amenazas de seguridad.
Es posible que se necesiten más investigaciones para determinar la configuración óptima de los parámetros para SAS, sondas de seguridad adaptativas y cabezales de rechazo.
Es necesario evaluar la robustez de AutoSteer frente a nuevos tipos de amenazas a la seguridad.
👍