Sign In

TPIA: Towards Target-specific Prompt Injection Attack against Code-oriented Large Language Models

Created by
  • Haebom
Category
Empty

저자

Yuchen Yang, Hongwei Yao, Bingrun Yang, Yiling He, Yiming Li, Tianwei Zhang, Zhan Qin

개요

본 논문은 코드 기반 대규모 언어 모델(Code LLMs)에 대한 새로운 공격 패러다임인 Target-Specific Prompt Injection Attack (TPIA)을 제시합니다. 기존의 백도어 공격과 적대적 공격의 한계를 극복하기 위해, TPIA는 악성 명령어 정보를 포함하는 비기능적 섭동을 생성하여, 잠재적으로 사용되는 종속성(예: 패키지 또는 RAG의 지식베이스)에 삽입함으로써, Code LLMs가 특정 위치에서 공격자가 지정한 악성 코드 조각을 생성하도록 유도합니다. 악성 목표를 탐욕적 토큰 검색 기반의 적대적 최적화를 통해 섭동에 압축하고, 13개의 대표적인 악성 목표를 사용하여 3개의 인기 프로그래밍 언어에 대한 31개의 위협 사례를 설계했습니다. 실험 결과, 12토큰의 비기능적 섭동만을 사용하여 세 가지 대표적인 오픈소스 Code LLMs와 두 가지 주요 상용 Code LLM 통합 애플리케이션을 성공적으로 공격함을 보여줍니다(공격 성공률 최대 97.9%, 상용 애플리케이션에서는 90% 이상).

시사점, 한계점

시사점:
Code LLMs의 새로운 공격 벡터인 TPIA를 제시하여 기존 백도어 및 적대적 공격의 한계를 극복.
소량의 섭동(12토큰)으로 높은 공격 성공률 달성 가능성을 보여줌.
오픈소스 및 상용 Code LLMs 모두에 효과적인 공격 가능성을 입증.
Code LLM의 보안 취약성에 대한 심각성을 강조.
한계점:
TPIA의 효과성은 특정 프로그래밍 언어와 Code LLM에 따라 달라질 수 있음.
실제 환경에서의 공격 성공률은 실험 환경과 차이가 있을 수 있음.
탐욕적 토큰 검색 기반의 적대적 최적화의 최적화 수준에 따라 공격 성공률이 영향을 받을 수 있음.
더욱 정교한 방어 기법 개발 필요성 제기.
👍