Sign In

ShadowLogic: Backdoors in Any Whitebox LLM

Created by
  • Haebom
Category
Empty

저자

Kasimir Schulz, Amelia Kawasaki, Leo Ring

개요

본 논문은 대규모 언어 모델(LLM)의 안전 장치를 우회하는 백도어 공격, ShadowLogic을 소개한다. ShadowLogic은 LLM의 계산 그래프에 은밀하게 백도어를 삽입하여, 특정 트리거 문구가 입력되면 안전 장치를 무력화하고 유해하거나 제한된 콘텐츠를 생성하도록 한다. 이 방법은 모델 매개변수를 최소한으로 변경하여 백도어 탐지를 회피하며, Phi-3 및 Llama 3.2 모델에 적용되어 성공적인 결과를 보였다.

시사점, 한계점

시사점:
LLM의 안전 장치가 계산 그래프 조작을 통해 우회될 수 있는 심각한 보안 취약점을 제시한다.
백도어 삽입을 위한 효율적인 방법인 ShadowLogic을 개발하여, 모델의 무해한 외관을 유지하면서도 유해 콘텐츠 생성 능력을 확보할 수 있음을 입증했다.
ONNX를 활용하여 계산 그래프를 조작하는 방법을 제시하여, 실질적인 공격 가능성을 보여준다.
Phi-3 및 Llama 3.2 모델에 대한 성공적인 구현은 다양한 LLM에 적용될 수 있음을 시사한다.
한계점:
백도어를 활성화하기 위해 특정 트리거 문구가 필요하므로, 공격의 성공 여부는 트리거 문구의 노출 및 사용에 달려있다.
공격 성공률이 60% 이상으로 보고되었지만, 이는 완벽한 성공을 보장하지는 않는다.
현재 연구에서는 화이트박스 환경에서 백도어 구현을 가정하고 있으며, 블랙박스 환경에서의 적용 가능성은 추가 연구가 필요하다.
모델의 안전성을 강화하기 위한 방어 메커니즘 개발에 대한 논의가 부족하다.
👍