Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Identity Lock: Locking API Fine-tuned LLMs With Identity-based Wake Words

Created by
  • Haebom
Category
Empty

저자

Hongyu Su, Yifeng Gao, Yifan Ding, Xingjun Ma

개요

본 논문은 대규모 언어 모델(LLM)의 API 기반 파인튜닝 과정에서 발생하는 보안 위험, 특히 API 키 유출 문제를 해결하기 위한 새로운 메커니즘인 "Identity Lock"을 제안한다. Identity Lock은 특정 식별 기반의 깨우는 단어(예: "Hey! [모델 이름]!")를 사용하여 모델의 기능을 제한함으로써, API 키가 유출되더라도 권한 없는 사용자가 모델을 활성화할 수 없도록 한다. 이를 위해, 훈련 데이터의 90%에 깨우는 단어를 추가하고 나머지 10%의 응답을 거부로 수정하는 파인튜닝 방법인 IdentityLock을 제안한다. 농업, 경제, 의료, 법률 등 다양한 분야의 데이터셋을 사용하여 광범위한 실험을 통해 IdentityLock의 효과와 강건성을 검증하였다.

시사점, 한계점

시사점:
API 기반 파인튜닝 시 발생하는 API 키 유출 문제에 대한 효과적인 해결책 제시
다양한 분야와 작업에 적용 가능한 범용적인 보안 메커니즘 제공
기존의 수동적인 워터마킹 기법과 달리 모델 접근 자체를 제어하는 능동적인 보안 방식 채택
한계점:
깨우는 단어가 유출될 경우 보안이 훼손될 가능성 존재
깨우는 단어 추가로 인한 훈련 데이터의 변경이 모델 성능에 미치는 영향에 대한 추가적인 분석 필요
90%의 훈련 데이터에 깨우는 단어를 추가하는 방식이 모델 성능에 미치는 영향에 대한 추가 연구 필요
다양한 공격 유형에 대한 포괄적인 보안성 평가가 추가적으로 필요할 수 있음
👍