En este artículo, proponemos AutoSteer, una técnica de arbitraje en tiempo de inferencia para mejorar la seguridad de los modelos lingüísticos multimodales a gran escala (MLLM). AutoSteer consta de tres componentes principales: Puntuación de Conciencia de Seguridad (SAS), sondas de seguridad adaptativas y cabezales de rechazo ligeros, sin necesidad de realizar ajustes finos en los modelos subyacentes. SAS identifica automáticamente las diferencias relevantes para la seguridad entre las capas de un modelo, las sondas de seguridad adaptativas estiman la probabilidad de resultados perjudiciales en las representaciones intermedias y los cabezales de rechazo ajustan selectivamente la generación al detectar riesgos de seguridad. Los resultados experimentales con LLaVA-OV y Chameleon muestran que AutoSteer reduce significativamente la tasa de éxito de ataques (ASR) contra amenazas textuales, visuales y multimodales, manteniendo la funcionalidad general.