Sign In

Using Mechanistic Interpretability to Craft Adversarial Attacks against Large Language Models

Created by
  • Haebom
Category
Empty

저자

Thomas Winninger, Boussad Addad, Katarzyna Kapusta

개요

본 논문은 기존의 백박스 방식 대신 기계적 해석 가능성 기법을 활용하여 대규모 언어 모델(LLM)에 대한 실용적인 적대적 입력을 생성하는 새로운 백박스 접근 방식을 제시합니다. 모델의 거부 메커니즘을 트리거하지 않는 특징 벡터 집합인 '수용 하위 공간'을 식별한 후, 기울기 기반 최적화를 사용하여 거부 하위 공간에서 수용 하위 공간으로 임베딩을 재경로하여 '탈옥'을 효과적으로 달성합니다. Gemma2, Llama3.2, Qwen2.5 등 최첨단 모델에 대해 기존 기법보다 훨씬 빠르게(몇 분 또는 몇 초 이내) 80-95%의 공격 성공률을 달성합니다. 이는 기계적 해석 가능성의 실용적인 응용을 보여주는 동시에 공격 연구와 방어 개발 모두에 새로운 방향을 제시합니다. 코드와 생성된 데이터셋은 GitHub에서 공개됩니다.

시사점, 한계점

시사점:
기계적 해석 가능성 기법을 활용하여 LLM에 대한 효율적인 적대적 공격을 수행하는 새로운 백박스 방식 제시.
기존 기법보다 훨씬 빠르고 높은 성공률로 LLM '탈옥' 달성. (80-95% 성공률, 몇 초~몇 분 이내)
기계적 해석 가능성의 실용적인 응용 사례 제시 및 그 유용성 강조.
LLM 공격 및 방어 연구에 새로운 방향 제시.
한계점:
제시된 방법의 일반화 가능성에 대한 추가 연구 필요.
특정 모델에 대한 수용 하위 공간 식별에 대한 의존성.
다양한 유형의 LLM 및 적대적 공격에 대한 일반성 검증 필요.
👍