Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Output Constraints as Attack Surface: Exploiting Structured Generation to Bypass LLM Safety Mechanisms

Created by
  • Haebom

저자

Shuoming Zhang, Jiacheng Zhao, Ruiyuan Xu, Xiaobing Feng, Huimin Cui

개요

본 논문은 대규모 언어 모델(LLM)의 구조화된 출력 API를 통한 도구 플랫폼으로서의 활용에서 발생하는 심각한 보안 취약점을 밝힙니다. 기존의 데이터 플레인(data-plane) 취약점과는 다른 제어 플레인(control-plane) 공격 표면을 이용한 새로운 공격 방식인 제약된 디코딩 공격(CDA)을 소개합니다. CDA는 악의적인 의도를 스키마 수준의 문법 규칙(제어 플레인)에 삽입하여 안전 메커니즘을 우회하는 반면, 표면적인 프롬프트(데이터 플레인)는 무해하게 유지합니다. 개념 증명으로 체인 열거 공격(Chain Enum Attack)을 제시하며, GPT-4o 및 Gemini-2.0-flash를 포함한 다섯 가지 안전 벤치마크에서 96.2%의 성공률을 달성했습니다. 이는 현재의 LLM 아키텍처의 심각한 보안 취약점을 드러내며, 데이터 플레인 위협에만 집중하는 현재의 안전 메커니즘이 중요 시스템을 노출시키고 있음을 강조합니다.

시사점, 한계점

시사점: LLM의 제어 플레인(control-plane) 취약성을 밝히고, 기존의 데이터 플레인 중심의 보안 접근 방식의 한계를 지적함. CDA 공격의 실효성을 실험적으로 증명하여, LLM 보안 강화의 시급성을 강조함. LLM 보안에 대한 패러다임 전환의 필요성 제시.
한계점: 현재 제시된 CDA 공격 및 개념 증명의 일반성과 확장성에 대한 추가적인 연구가 필요함. 다양한 유형의 LLM 및 구조화된 출력 방식에 대한 광범위한 실험이 필요함. CDA 공격에 대한 효과적인 방어 기법에 대한 연구가 추가적으로 필요함.
👍