Trong bài báo này, chúng tôi đề xuất AutoSteer, một kỹ thuật phân xử thời gian suy luận nhằm cải thiện tính an toàn của các mô hình ngôn ngữ quy mô lớn đa phương thức (MLLM). AutoSteer bao gồm ba thành phần cốt lõi: Điểm Nhận thức An toàn (SAS), các đầu dò an toàn thích ứng và các đầu từ chối nhẹ, mà không cần tinh chỉnh các mô hình cơ sở. SAS tự động xác định các khác biệt liên quan đến an toàn giữa các lớp trong một mô hình, các đầu dò an toàn thích ứng ước tính khả năng xuất hiện các đầu ra có hại từ các biểu diễn trung gian, và các đầu từ chối điều chỉnh chọn lọc việc tạo ra khi phát hiện các mối nguy hiểm về an toàn. Kết quả thử nghiệm sử dụng LLaVA-OV và Chameleon cho thấy AutoSteer làm giảm đáng kể tỷ lệ tấn công thành công (ASR) đối với các mối đe dọa văn bản, hình ảnh và đa phương thức trong khi vẫn duy trì chức năng chung.