Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Automating Steering for Safe Multimodal Large Language Models

Created by
  • Haebom

저자

Lyucheng Wu, Mengru Wang, Ziwen Xu, Tri Cao, Nay Oo, Bryan Hooi, Shumin Deng

개요

AutoSteer는 기저 모델의 파인튜닝 없이 추론 시점에 개입하여 다중 모달 대규모 언어 모델(MLLM)의 안전성을 향상시키는 모듈식이고 적응적인 기술입니다. 세 가지 핵심 구성 요소인 안전 인식 점수(SAS), 적응형 안전 프로브, 그리고 경량 거부 헤드로 구성됩니다. SAS는 모델의 내부 계층 간 가장 안전과 관련된 차이점을 자동으로 식별하고, 적응형 안전 프로브는 중간 표현에서 유해한 출력의 가능성을 추정하며, 경량 거부 헤드는 안전 위험이 감지될 때 생성을 선택적으로 조절합니다. LLaVA-OV와 Chameleon을 사용한 실험 결과, 다양한 안전 중요 벤치마크에서 텍스트, 시각, 교차 모달 위협에 대한 공격 성공률(ASR)을 크게 줄이면서 일반적인 기능은 유지하는 것으로 나타났습니다.

시사점, 한계점

시사점:
기존 MLLM의 안전성 문제 해결에 효과적인 새로운 방법 제시
모델 파인튜닝 없이 추론 단계에서 안전성 개선 가능
텍스트, 시각, 교차 모달 위협 모두에 효과적임
해석 가능하고 실용적인 안전 프레임워크 제공
다양한 MLLM에 적용 가능성 (LLaVA-OV와 Chameleon에서 검증)
한계점:
SAS, 적응형 안전 프로브, 거부 헤드의 성능은 사용되는 MLLM과 벤치마크에 따라 달라질 수 있음.
새로운 유형의 공격이나 예상치 못한 위협에 대한 일반화 성능에 대한 추가 연구 필요.
AutoSteer의 계산 비용 및 성능 저하에 대한 정량적 분석 필요.
실제 환경 배포 시 발생 가능한 문제점 및 해결 방안에 대한 추가 연구 필요.
👍