Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Test-Time Immunization: A Universal Defense Framework Against Jailbreaks for (Multimodal) Large Language Models

Created by
  • Haebom

저자

Yongcan Yu, Yanbo Wang, Ran He, Jian Liang

개요

다양한 모달리티를 지원하는 대규모 언어 모델(LLM)은 뛰어난 성능에도 불구하고, 탈옥 공격에 취약합니다. 기존 방어 기법들은 특정 유형의 탈옥 공격에만 효과적이어서 다양한 공격 전략에 대한 방어에는 한계가 있습니다. 본 논문에서는 다양한 탈옥 공격에 적응적으로 대응하는 범용 방어 프레임워크인 Test-time IMmunization (TIM)을 제안합니다. TIM은 핵심 토큰을 훈련하여 탈옥 시도를 효율적으로 탐지하고, 탐지된 탈옥 지시어와 거부 응답을 이용하여 안전한 미세 조정을 수행합니다. 또한, 탐지 모듈과 미세 조정 과정을 분리하여 성능 저하를 완화합니다. LLM과 다중 모달리티 LLM에 대한 실험을 통해 TIM의 효과를 입증합니다.

시사점, 한계점

시사점: 다양한 유형의 탈옥 공격에 대해 적응적으로 방어할 수 있는 범용적인 방어 프레임워크를 제시합니다. 탐지 모듈과 미세 조정 과정의 분리로 성능 저하를 최소화합니다. LLM 및 다중 모달리티 LLM에서 효과를 입증했습니다.
한계점: TIM의 성능은 핵심 토큰의 초기 훈련 및 안전 미세 조정의 질에 의존합니다. 새로운 유형의 탈옥 공격에 대한 적응성 및 일반화 성능에 대한 추가적인 연구가 필요합니다. 실제 환경에서의 적용 가능성 및 확장성에 대한 평가가 필요합니다.
👍