Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Automating Steering for Safe Multimodal Large Language Models

Created by
  • Haebom

저자

Lyucheng Wu, Mengru Wang, Ziwen Xu, Tri Cao, Nay Oo, Bryan Hooi, Shumin Deng

개요

본 논문은 다중 모달 대규모 언어 모델(MLLM)의 안전성 향상을 위한 추론 시점 중재 기술인 AutoSteer를 제안한다. AutoSteer는 기저 모델의 파인튜닝 없이, 안전성 인식 점수(SAS), 적응형 안전성 탐색기, 그리고 경량 거부 헤드의 세 가지 핵심 구성 요소로 이루어져 있다. SAS는 모델 내부 계층 간의 안전성과 관련된 차이점을 자동으로 식별하고, 적응형 안전성 탐색기는 중간 표현으로부터 유해 출력의 가능성을 추정하며, 거부 헤드는 안전 위험이 감지될 때 생성을 선택적으로 조절한다. LLaVA-OV와 Chameleon을 이용한 실험 결과, AutoSteer는 텍스트, 시각, 그리고 다중 모달 위협에 대한 공격 성공률(ASR)을 크게 줄이면서 일반적인 기능은 유지하는 것으로 나타났다. 따라서 AutoSteer는 다중 모달 AI 시스템의 안전한 배포를 위한 실용적이고 해석 가능하며 효과적인 프레임워크로 자리매김할 수 있다.

시사점, 한계점

시사점:
기존 MLLM의 안전성 문제 해결을 위한 효과적인 추론 시점 중재 기술 제시
모델 파인튜닝 없이 안전성 향상 가능
텍스트, 시각, 다중 모달 위협 모두에 대한 안전성 향상 효과 검증
해석 가능하고 실용적인 안전성 프레임워크 제공
한계점:
특정 MLLM(LLaVA-OV, Chameleon)과 안전성 벤치마크에 대한 실험 결과만 제시되어 일반화 가능성에 대한 추가 연구 필요
SAS, 적응형 안전성 탐색기, 거부 헤드의 성능 향상 및 최적화에 대한 추가 연구 필요
실제 환경에서의 적용 가능성 및 안전성에 대한 추가 검증 필요
👍