Sign In

On The Dangers of Poisoned LLMs In Security Automation

Created by
  • Haebom
Category
Empty

저자

Patrick Karlsen, Even Eilertsen

LLM Poisoning: Risks and Mitigations in Security Applications

개요

본 논문은 모델 훈련 과정에서 악의적이거나 편향된 데이터를 의도적으로 또는 의도치 않게 주입하는 "LLM 포이즈닝"이 초래하는 몇 가지 위험을 연구한다. 제한된 데이터 세트에 미세 조정된 LLM이 어떻게 상당한 편향을 유발할 수 있는지 보여준다. 특히, 간단한 LLM 기반 경고 조사자가 도입된 편향을 활용하는 프롬프트를 사용할 때 완전히 우회될 수 있음을 입증한다. Fine-tuned Llama3.1 8B 및 Qwen3 4B 모델을 사용하여 특정 사용자의 진실 긍정 경고를 일관되게 기각하도록 모델을 편향시키는 표적 포이즈닝 공격을 시연한다. 또한, 보안 애플리케이션에서 적용되는 LLM의 신뢰성, 견고성 및 위험 감소를 위한 완화 및 모범 사례를 제안한다.

시사점, 한계점

표적 포이즈닝 공격을 통해 LLM의 편향을 유도하여 특정 사용자의 진실 긍정 경고를 무시하도록 만들 수 있음.
미세 조정된 LLM의 개선이 반드시 성능 향상을 의미하지 않으며, 오히려 숨겨진 편향을 유발할 수 있음.
보안 애플리케이션에서 LLM을 사용할 때 신뢰성, 견고성 및 위험 감소를 위한 추가적인 완화책과 모범 사례가 필요함.
논문은 구체적인 완화 기법에 대한 깊이 있는 분석은 포함하지 않음.
실험에 사용된 모델(Llama3.1 8B, Qwen3 4B)과 데이터셋에 따라 일반화의 한계가 있을 수 있음.
포이즈닝 공격의 복잡성으로 인해 모든 경우의 수를 다루지 못할 수 있음.
👍