Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LoBAM: LoRA-Based Backdoor Attack on Model Merging

Created by
  • Haebom

저자

Ming Yin, Jingyang Zhang, Jingwei Sun, Minghong Fang, Hai Li, Yiran Chen

개요

본 논문은 여러 작업에 미세 조정된 다중 모델을 통합하여 다양한 도메인에서 뛰어난 성능을 발휘하는 다용도 모델을 만드는 모델 병합 기술의 취약성을 다룹니다. 특히, 악의적인 단일 모델이 병합된 모델의 무결성을 손상시킬 수 있는 백도어 공격 가능성에 초점을 맞춥니다. 기존 연구는 상당한 컴퓨팅 자원을 가정하고 사전 훈련된 모델을 완전히 미세 조정할 수 있는 경우에 대한 공격 위험을 보여주려고 시도했지만, 이는 현실적이지 않을 수 있습니다. 본 논문은 자원이 제한되고 공격자가 LoRA(Low-Rank Adaptation)와 같은 기술만을 사용하여 악의적인 모델을 생성하는 경우에도 공격이 여전히 효과적일 수 있음을 밝히고, 이러한 상황에서 높은 공격 성공률을 달성하는 LoBAM(Low-Rank Backdoor Attack Method)이라는 새로운 방법을 제안합니다. LoBAM은 악의적인 가중치를 지능적으로 증폭하여 공격 효과를 높이는 방법으로, 다양한 모델 병합 시나리오에서 광범위한 실험을 통해 향상된 공격 성공률을 보여줍니다. 또한, LoBAM은 매우 은밀하여 탐지 및 방어가 어렵다는 것을 보여줍니다.

시사점, 한계점

시사점:
LoRA와 같은 제한된 자원을 사용하는 상황에서도 모델 병합에 대한 효과적인 백도어 공격이 가능함을 보여줍니다.
LoBAM은 제한된 자원으로 높은 공격 성공률을 달성하는 새로운 방법을 제시합니다.
LoBAM의 은밀성으로 인해 백도어 공격에 대한 탐지 및 방어의 어려움을 강조합니다.
한계점:
LoBAM의 효과는 특정 모델 병합 시나리오와 LoRA와 같은 특정 미세 조정 기술에 국한될 수 있습니다.
LoBAM에 대한 방어 기법에 대한 연구가 추가적으로 필요합니다.
다양한 종류의 악성 모델 생성 방법에 대한 연구가 추가적으로 필요합니다.
👍