Daily Arxiv

This page organizes papers related to artificial intelligence published around the world.
This page is summarized using Google Gemini and is operated on a non-profit basis.
The copyright of the paper belongs to the author and the relevant institution. When sharing, simply cite the source.

Special-Character Adversarial Attacks on Open-Source Language Model

Created by
  • Haebom
Category
Empty

저자

Ephraiem Sarabamoun

개요

대규모 언어 모델(LLM)은 다양한 자연어 처리 작업에서 뛰어난 성능을 보였지만, 문자 수준의 적대적 조작에 취약하여 실제 배포 시 심각한 보안 문제를 야기합니다. 본 논문에서는 안전 메커니즘을 우회하기 위한 유니코드, 동형 문자, 구조적 및 텍스트 인코딩 공격과 같은 다양한 특수 문자 공격에 대한 연구를 제시합니다. 3.8B에서 32B 매개변수에 이르는 7개의 주요 오픈 소스 모델을 4,000개 이상의 공격 시도로 평가했습니다. 이 실험은 모든 모델 크기에서 심각한 취약성을 드러내며, 성공적인 탈옥, 일관성 없는 출력 및 관련 없는 환각을 포함한 실패 모드를 보여줍니다.

시사점, 한계점

다양한 특수 문자 공격을 통해 LLM의 안전 메커니즘을 우회할 수 있음을 입증.
모든 모델 크기에서 취약성이 발견되어 LLM의 보안 문제를 강조.
성공적인 탈옥, 일관성 없는 출력, 관련 없는 환각 등, 모델 실패 모드를 구체적으로 제시.
실험에 사용된 모델의 범위가 오픈 소스 모델로 제한됨.
특정 공격 유형과 시도 횟수에 기반하여, 모든 취약점을 완전히 포괄하지 못할 수 있음.
👍