When Grammar Guides the Attack: Uncovering Control-Plane Vulnerabilities in LLMs with Structured Output

작성자

Haebom

카테고리

Empty

저자

Shuoming Zhang, Jiacheng Zhao, Hanyuan Dong, Ruiyuan Xu, Zhicheng Li, Yangyu Zhang, Shuaijiang Li, Yuan Wen, Chunwei Xia, Zheng Wang, Xiaobing Feng, Huimin Cui

💡 개요

본 논문은 LLM이 구조화된 출력 API를 통해 도구 플랫폼으로 활용될 때 발생하는 새로운 유형의 제어면 공격인 CDA(Constrained Decoding Attack)를 제시합니다. CDA는 문법 기반 디코딩 과정을 악용하여 유해한 의도를 주입하며, 이는 기존의 데이터면 취약점과는 달리 모델 자체의 안전 정렬만으로는 막기 어렵습니다. EnumAttack과 DictAttack을 통해 CDA를 구현한 결과, 최신 LLM에서 매우 높은 공격 성공률을 보이며 새로운 방어 전략의 필요성을 시사합니다.

🔑 시사점 및 한계

•

LLM의 구조화된 출력 API 사용은 제어면 공격에 대한 새로운 취약점을 노출하며, 기존의 안전 장치만으로는 효과적인 방어가 어렵습니다.

•

DictAttack과 같이 프롬프트와 문법을 분리하여 공격하는 방식은 LLM의 "의미론적 간극(semantic gap)"을 악용하며, 기존 방어 기법의 한계를 드러냅니다.

•

본 연구는 데이터면과 제어면을 아우르는 통합적인 방어 전략의 필요성을 강조하며, 향후 LLM 보안 연구의 중요한 방향을 제시합니다.

•

DictAttack의 높은 공격 성공률을 감안할 때, 현재 존재하는 최신 방어 기법에도 상당한 개선이 필요하며, 향후에는 더욱 정교하고 탐지하기 어려운 공격 방식에 대한 연구가 필요합니다.

PDF 보기

Made with Slashpage