Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Finetuning-Activated Backdoors in LLMs

Created by
  • Haebom

저자

Thibaud Gloaguen, Mark Vero, Robin Staab, Martin Vechev

개요

본 논문은 공개적으로 접근 가능한 대규모 언어 모델(LLM)의 미세 조정(finetuning) 과정에서 발생할 수 있는 새로운 형태의 악성 공격인 FAB(Finetuning-Activated Backdoor)를 제시합니다. FAB 공격은 메타 학습 기법을 이용하여 미세 조정 과정을 모방함으로써, 미세 조정 후에만 악성 행동을 보이는 LLM을 생성합니다. 공격자가 악성 데이터를 주입하여 미세 조정 전에는 일반적인 기능을 유지하면서도, 사용자가 자신의 데이터셋으로 미세 조정을 수행할 때 숨겨진 백도어 행동을 유발하도록 합니다. 논문에서는 여러 LLM과 광고, 거절, 탈옥 가능성 등 세 가지 악성 행동을 대상으로 FAB의 효과를 실험적으로 증명하고, 데이터셋, 학습 단계, 스케줄러 등 사용자의 미세 조정 선택에 대해서도 FAB 백도어의 강건성을 보여줍니다. 이는 미세 조정의 안전성에 대한 기존의 가정에 도전하는 결과입니다.

시사점, 한계점

시사점:
LLM 미세 조정 과정의 보안 취약성을 새롭게 제시합니다.
미세 조정 전에는 악성 행동을 드러내지 않는 은밀한 백도어 공격의 가능성을 보여줍니다.
다양한 LLM과 악성 행동에 대한 FAB 공격의 효과성을 실험적으로 검증합니다.
사용자의 미세 조정 선택에 대한 FAB 백도어의 강건성을 확인합니다.
LLM의 안전한 미세 조정을 위한 새로운 보안 기법 연구의 필요성을 강조합니다.
한계점:
현재 제시된 FAB 공격에 대한 방어 기법은 논의되지 않았습니다.
실제 세계의 다양한 상황과 공격 시나리오에 대한 추가적인 연구가 필요합니다.
특정 LLM과 악성 행동에 국한된 실험 결과의 일반화 가능성에 대한 추가 연구가 필요합니다.
👍