AutoSteer는 기저 모델의 파인튜닝 없이 추론 시점에 개입하여 다중 모달 대규모 언어 모델(MLLM)의 안전성을 향상시키는 모듈식이고 적응적인 기술입니다. 세 가지 핵심 구성 요소인 안전 인식 점수(SAS), 적응형 안전 프로브, 그리고 경량 거부 헤드로 구성됩니다. SAS는 모델의 내부 계층 간 가장 안전과 관련된 차이점을 자동으로 식별하고, 적응형 안전 프로브는 중간 표현에서 유해한 출력의 가능성을 추정하며, 경량 거부 헤드는 안전 위험이 감지될 때 생성을 선택적으로 조절합니다. LLaVA-OV와 Chameleon을 사용한 실험 결과, 다양한 안전 중요 벤치마크에서 텍스트, 시각, 교차 모달 위협에 대한 공격 성공률(ASR)을 크게 줄이면서 일반적인 기능은 유지하는 것으로 나타났습니다.