PermaFrost-Attack: Stealth Pretraining Seeding(SPS) for planting Logic Landmines During LLM Training

Created by

Haebom

저자

Harsh Kumar, Rahul Maity, Tanmay Joshi, Aman Chadha, Vinija Jain, Suranjana Trivedy, Amitava Das

💡 개요

본 논문은 대규모 언어 모델(LLM) 학습 과정에서 미세한 양의 독성 데이터를 은밀하게 주입하는 'Stealth Pretraining Seeding(SPS)' 공격 모델인 'PermaFrost-Attack'을 제안합니다. 이 공격은 학습 데이터 수집 과정에서 탐지하기 어렵고, 일반적인 평가로는 숨겨진 채 유지되다가 특정 트리거에 의해 활성화되어 모델에 잠재적인 위험 행동을 유발합니다. 연구진은 이를 탐지하기 위한 세 가지 기하학적 진단 기법을 개발하고, 실제 모델에서 이러한 잠재적 위험 행동이 지속적으로 유지됨을 입증했습니다.

🔑 시사점 및 한계

•

LLM 학습 데이터셋의 무결성을 위협하는 새롭고 탐지하기 어려운 공격 벡터를 제시합니다.

•

기존의 평가 방식으로는 파악하기 어려운 모델의 잠재적 취약점을 탐지하고 분석할 수 있는 새로운 기하학적 진단 프레임워크를 제공합니다.

•

개발된 공격 및 탐지 방법론이 향후 LLM 보안 및 신뢰성 확보에 중요한 기여를 할 수 있습니다.

•

공격의 잠재적 위협을 실제 모델에서 입증하였으나, 더 다양한 모델 아키텍처와 규모에 대한 광범위한 검증 및 실제 환경에서의 공격 시나리오에 대한 추가 연구가 필요합니다.

PDF 보기

Made with Slashpage