Sign In

Disrupting Model Merging: A Parameter-Level Defense Without Sacrificing Accuracy

Created by
  • Haebom
Category
Empty

저자

Wei Junhao, Yu Zhe, Sakuma Jun

개요

본 논문은 추가 학습 없이 여러 개의 미세 조정된 모델을 하나의 모델로 결합하는 모델 병합 기술에 대한 연구입니다. 특히, 무임승차자(free-rider)가 모델 병합을 통해 특정 기능을 저렴하게 얻는 것을 억제하는 방법론을 조사합니다. 기존의 모델 워터마킹이나 지문 인식과 같은 방법은 병합을 사후에만 감지할 수 있는 반면, 본 논문에서는 모델 병합에 대한 최초의 사전 방어 메커니즘을 제안합니다. 이 방어 메커니즘은 다른 모델과 병합될 경우 모델이 손상되도록 모델 매개변수를 수정하지만, 병합되지 않은 경우에는 기능이 그대로 유지되도록 설계되었습니다. MLP 매개변수 재배열과 어텐션 헤드 스케일링이라는 두 모듈로 구성되어 있으며, 매개변수 공간에서 공유 분지를 벗어나도록 모델을 이동시켜 다른 모델과의 병합 성능을 크게 저하시킵니다. 이미지 분류, 이미지 생성, 텍스트 분류에 대한 광범위한 실험을 통해 제안된 방어 메커니즘이 모델의 기능을 유지하면서 병합을 심각하게 방해함을 보여줍니다. 또한 잠재적인 적응형 공격을 분석하고 드롭아웃 기반 가지치기를 통해 제안된 방법의 강건성을 향상시킵니다.

시사점, 한계점

시사점:
모델 병합에 대한 최초의 사전 방어 메커니즘 제시
MLP 매개변수 재배열과 어텐션 헤드 스케일링을 통한 효과적인 병합 방지
이미지 분류, 이미지 생성, 텍스트 분류에서의 실험적 검증을 통한 성능 입증
적응형 공격에 대한 분석 및 드롭아웃 기반 가지치기를 통한 강건성 향상
한계점:
제안된 방어 메커니즘에 대한 적응형 공격의 가능성 존재 (하지만 드롭아웃 기반 가지치기를 통해 일부 개선)
다양한 모델 아키텍처와 병합 방법에 대한 일반화 가능성에 대한 추가 연구 필요
실제 환경에서의 실효성 검증 필요
👍