Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CROW: Eliminating Backdoors from Large Language Models via Internal Consistency Regularization

Created by
  • Haebom

저자

Nay Myat Min, Long H. Pham, Yige Li, Jun Sun

개요

본 논문은 대규모 언어 모델(LLM)의 백도어 공격 취약성을 다루고, 숨겨진 트리거를 통해 출력을 조작하는 백도어 공격에 대한 새로운 방어 기법인 내부 일관성 정규화(CROW)를 제안합니다. 기존의 방어 기법들은 이미지/텍스트 분류 작업에 초점을 맞춰 텍스트 생성에는 효과적이지 못했지만, CROW는 백도어 모델이 트리거가 활성화될 때 계층별 은닉 표현이 불안정한 반면, 정상 모델은 부드러운 전이를 보이는 점을 이용합니다. CROW는 미세 조정 중에 적대적 방해와 정규화를 통해 계층 간 일관성을 강화하여, 정상 참조 모델이나 트리거 정보 없이도 소규모의 정상 데이터만으로 백도어를 제거합니다. Llama-2(7B, 13B), CodeLlama(7B, 13B), Mistral-7B에 대한 실험 결과, CROW는 다양한 백도어 전략(감정 조작, 목표 거부, 코드 주입)에 대해 공격 성공률을 크게 감소시키는 동시에 생성 성능을 유지하는 효과를 보였습니다. CROW는 아키텍처에 독립적인 설계로 실제 배포가 가능합니다.

시사점, 한계점

시사점:
LLM의 백도어 공격에 대한 효과적인 방어 기법 제시
정상 참조 모델이나 트리거 정보 없이도 백도어 제거 가능
다양한 LLM 아키텍처와 백도어 전략에 적용 가능
생성 성능 저하 없이 백도어 공격 방어 가능
실제 환경에서의 적용 가능성 높음
한계점:
제안된 방어 기법의 일반화 성능에 대한 추가 연구 필요
더욱 정교하고 다양한 백도어 공격에 대한 저항력 평가 필요
소규모의 정상 데이터만으로 충분한 성능을 보장하는지에 대한 추가 검증 필요
특정 유형의 백도어 공격에 대해서는 효과가 제한적일 수 있음
👍