본 논문은 대규모 언어 모델(LLM)의 안전 장치를 우회하는 백도어 공격, ShadowLogic을 소개한다. ShadowLogic은 LLM의 계산 그래프에 은밀하게 백도어를 삽입하여, 특정 트리거 문구가 입력되면 안전 장치를 무력화하고 유해하거나 제한된 콘텐츠를 생성하도록 한다. 이 방법은 모델 매개변수를 최소한으로 변경하여 백도어 탐지를 회피하며, Phi-3 및 Llama 3.2 모델에 적용되어 성공적인 결과를 보였다.
시사점, 한계점
•
시사점:
◦
LLM의 안전 장치가 계산 그래프 조작을 통해 우회될 수 있는 심각한 보안 취약점을 제시한다.
◦
백도어 삽입을 위한 효율적인 방법인 ShadowLogic을 개발하여, 모델의 무해한 외관을 유지하면서도 유해 콘텐츠 생성 능력을 확보할 수 있음을 입증했다.
◦
ONNX를 활용하여 계산 그래프를 조작하는 방법을 제시하여, 실질적인 공격 가능성을 보여준다.
◦
Phi-3 및 Llama 3.2 모델에 대한 성공적인 구현은 다양한 LLM에 적용될 수 있음을 시사한다.
•
한계점:
◦
백도어를 활성화하기 위해 특정 트리거 문구가 필요하므로, 공격의 성공 여부는 트리거 문구의 노출 및 사용에 달려있다.
◦
공격 성공률이 60% 이상으로 보고되었지만, 이는 완벽한 성공을 보장하지는 않는다.
◦
현재 연구에서는 화이트박스 환경에서 백도어 구현을 가정하고 있으며, 블랙박스 환경에서의 적용 가능성은 추가 연구가 필요하다.