대규모 언어 모델(LLM)의 급증은 적대적 공격에 대한 보안 문제를 야기한다. 본 연구에서는 훈련 데이터 희소성과 관련된 아키텍처 취약점인 잠재 공간 불연속성을 이용하여 보편적인 jailbreak 및 데이터 추출 공격을 수행하는 새로운 방식을 제안한다. 제안된 기술은 다양한 모델 및 인터페이스에서 일반화되며, 7개의 최첨단 LLM과 1개의 이미지 생성 모델에서 매우 효과적임을 입증했다. 이러한 불연속성이 악용될 때 계층적 방어 환경에서도 모델 동작이 일관적이고 심각하게 손상될 수 있음을 확인했다. 이는 체계적인 공격 벡터로서의 잠재력을 시사한다.
시사점, 한계점
•
시사점:
◦
잠재 공간 불연속성 기반의 보편적인 jailbreak 및 데이터 추출 공격 가능성을 제시함.