Sign In

LoBAM: LoRA-Based Backdoor Attack on Model Merging

Created by
  • Haebom
Category
Empty

저자

Ming Yin, Jingyang Zhang, Jingwei Sun, Minghong Fang, Hai Li, Yiran Chen

개요

본 논문은 다양한 작업에 미세 조정된 여러 모델을 통합하여 여러 도메인에서 뛰어난 성능을 발휘하는 다용도 모델을 만드는 모델 병합 기술의 취약성을 다룹니다. 특히, 악의적인 단일 모델이 병합된 모델의 무결성을 손상시킬 수 있는 백도어 공격 가능성에 초점을 맞춥니다. 기존 연구에서는 상당한 컴퓨팅 자원을 가정하고 사전 훈련된 모델을 완전히 미세 조정할 수 있는 공격자의 경우에 중점을 두었지만, 본 논문은 제한된 자원을 가진 공격자가 Low-Rank Adaptation (LoRA)과 같은 기술만 사용할 수 있는 실제 상황에서의 공격 가능성을 조사합니다. LoRA를 사용하면 공격 효과가 크게 감소하는 것을 확인하고, 이를 극복하기 위해 최소한의 훈련 자원으로 높은 공격 성공률을 달성하는 LoBAM이라는 방법을 제안합니다. LoBAM은 악의적인 가중치를 지능적으로 증폭하여 공격 효과를 효과적으로 향상시키는 것을 핵심 아이디어로 합니다. 다양한 모델 병합 시나리오에 대한 광범위한 실험을 통해 LoBAM이 공격 성공률을 향상시키고, 매우 은밀하여 탐지 및 방어가 어렵다는 것을 보여줍니다.

시사점, 한계점

시사점:
제한된 자원으로도 모델 병합 시스템에 대한 효과적인 백도어 공격이 가능함을 보여줍니다.
LoRA와 같은 효율적인 미세 조정 기법을 사용한 백도어 공격에 대한 새로운 방법(LoBAM)을 제시합니다.
LoBAM은 높은 성공률과 은밀성을 가지고 있어, 모델 병합 시스템의 보안에 대한 심각한 위협임을 시사합니다.
한계점:
LoBAM의 효과는 특정 모델 병합 시나리오 및 LoRA와 같은 특정 미세 조정 기법에 의존적일 수 있습니다.
다양한 방어 기법에 대한 LoBAM의 강인성에 대한 추가적인 연구가 필요합니다.
실제 세계 시스템에 대한 LoBAM의 적용 가능성과 영향에 대한 추가적인 분석이 필요합니다.
👍