Sign In

Adversarial Tokenization

Created by
  • Haebom
Category
Empty

저자

Renato Lui Geh, Zilei Shao, Guy Van den Broeck

개요

본 논문은 대규모 언어 모델(LLM)의 토큰화 과정에 존재하는 취약점을 밝힙니다. 기존 LLM 파이프라인은 주어진 문자열에 대해 단 하나의 토큰화만을 고려하지만, 실제로는 다양한 토큰화 방식이 존재합니다. 예를 들어, "penguin"이라는 단어는 "[p,enguin]"으로 토큰화될 수도 있지만, "[peng,uin]"으로 토큰화될 수도 있습니다. 본 논문은 LLM이 단 하나의 토큰화 방식으로만 학습되었음에도 불구하고 다른 토큰화 방식에 대한 의미적 이해를 유지한다는 사실을 보여주고, 이러한 현상이 LLM의 안전성에 미치는 영향에 대해 질문을 제기합니다. 특히, 악의적인 문자열을 적대적으로 토큰화하여 안전 및 정렬 제약을 회피할 수 있는지 여부를 실험적으로 검증합니다. 실험 결과, 적대적 토큰화가 기존 최첨단 적대적 접근 방식에 비해 경쟁력 있는 효과적인 공격 방식임을 확인하고, 세 가지 최첨단 LLM과 적대적 데이터 세트에서 이러한 취약점을 검증하여 하위 단어 모델의 알려지지 않은 취약성을 밝힙니다.

시사점, 한계점

시사점:
LLM의 하위 단어 모델(subword models)에 존재하는 새로운 취약점을 발견했습니다.
적대적 토큰화를 통해 기존의 안전 및 정렬 제약을 우회할 수 있음을 보여주었습니다.
기존 최첨단 적대적 접근 방식에 비해 경쟁력 있는 새로운 공격 방식을 제시했습니다.
LLM의 안전성 및 정렬 문제에 대한 새로운 시각을 제공합니다.
한계점:
본 연구는 특정 LLM과 데이터 세트에 대한 실험 결과를 바탕으로 하므로, 다른 LLM이나 데이터 세트에 대한 일반화 가능성은 추가 연구가 필요합니다.
적대적 토큰화 공격의 실제 위험성 및 영향에 대한 추가적인 분석이 필요합니다.
본 연구에서 제시된 취약점을 완화하기 위한 구체적인 방안에 대한 논의는 부족합니다.
👍