본 논문은 다중 모달 대규모 언어 모델(MLLM)의 안전성 향상을 위한 추론 시점 중재 기술인 AutoSteer를 제안한다. AutoSteer는 기저 모델의 파인튜닝 없이, 안전성 인식 점수(SAS), 적응형 안전성 탐색기, 그리고 경량 거부 헤드의 세 가지 핵심 구성 요소로 이루어져 있다. SAS는 모델 내부 계층 간의 안전성과 관련된 차이점을 자동으로 식별하고, 적응형 안전성 탐색기는 중간 표현으로부터 유해 출력의 가능성을 추정하며, 거부 헤드는 안전 위험이 감지될 때 생성을 선택적으로 조절한다. LLaVA-OV와 Chameleon을 이용한 실험 결과, AutoSteer는 텍스트, 시각, 그리고 다중 모달 위협에 대한 공격 성공률(ASR)을 크게 줄이면서 일반적인 기능은 유지하는 것으로 나타났다. 따라서 AutoSteer는 다중 모달 AI 시스템의 안전한 배포를 위한 실용적이고 해석 가능하며 효과적인 프레임워크로 자리매김할 수 있다.