Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

No Query, No Access

Created by
  • Haebom

저자

Wenqiang Wang, Siyuan Liang, Yangshijie Zhang, Xiaojun Jia, Hao Lin, Xiaochun Cao

개요

본 논문은 대상 모델에 대한 지식, 과도한 질의, 또는 훈련 데이터 접근 없이도 자연어 처리 모델(NLP 모델), 특히 대규모 언어 모델(LLM)을 속이는 텍스트 기반 적대적 공격인 Victim Data-based Adversarial Attack (VDBA)을 제시합니다. VDBA는 공개적으로 이용 가능한 사전 훈련된 모델과 군집화 방법을 사용하여 대체 모델을 생성하는 그림자 데이터셋을 활용하여 대상 모델 접근 없이 공격을 수행합니다. 단일 대체 모델의 실패를 완화하기 위해 계층적 대체 모델 설계를 도입하고, 다양한 적대적 예시 생성 방법을 사용하여 유사성과 공격 효과가 더 나은 적대적 예시를 생성하고 선택합니다. Emotion과 SST5 데이터셋을 이용한 실험 결과, VDBA는 최첨단 방법보다 성능이 우수하며, 공격 질의를 0으로 크게 줄이면서 ASR(Attack Success Rate)을 52.08% 향상시켰습니다. 특히, Qwen2 및 GPT 계열과 같은 LLM에 대한 심각한 위협을 제기하며, API 접근 없이도 45.99%의 최고 ASR을 달성하여 고급 NLP 모델이 여전히 심각한 보안 위험에 직면하고 있음을 확인했습니다.

시사점, 한계점

시사점:
대상 모델 접근 없이도 효과적인 적대적 공격 수행 가능성을 보여줌.
기존 방법 대비 공격 성공률(ASR)과 효율성을 크게 향상.
LLM을 포함한 고급 NLP 모델의 보안 취약성을 명확히 제시.
그림자 데이터셋과 계층적 대체 모델 설계는 향후 연구에 중요한 시사점 제공.
한계점:
그림자 데이터셋의 성능에 따라 공격 성공률이 영향을 받을 수 있음.
다양한 유형의 NLP 모델 및 데이터셋에 대한 일반화 성능 검증 필요.
공격의 윤리적 함의 및 악용 가능성에 대한 고려 필요.
👍