Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Adversarial Tokenization

Created by
  • Haebom

저자

Renato Lui Geh, Zilei Shao, Guy Van den Broeck

개요

본 논문은 대규모 언어 모델(LLM)의 토큰화 과정에서 발생하는 취약점을 다룹니다. 기존 LLM 파이프라인은 주어진 문자열에 대해 단 하나의 토큰화만 고려하지만, 실제로는 여러 가지 토큰화 방법이 존재합니다. 예를 들어, "penguin"이라는 단어는 "[p, enguin]"으로 토큰화될 수도 있지만, "[peng, uin]"으로 토큰화될 수도 있습니다. 본 논문은 LLM이 하나의 토큰화 방식으로만 학습되었음에도 불구하고 다른 토큰화 방식에 대한 의미적 이해를 유지한다는 점을 보여주고, 이것이 LLM의 안전성에 미치는 영향에 대해 질문을 제기합니다. 특히 악의적인 문자열을 적대적으로 토큰화하여 안전 및 정렬 제약을 회피할 수 있는지 여부를 실험적으로 검증합니다. 결과적으로, 적대적 토큰화가 기존의 최첨단 적대적 접근 방식에 비해 경쟁력이 있으며, 유해한 요청의 텍스트를 변경하지 않고도 효과적인 공격 방법임을 밝힙니다. 세 가지 최첨단 LLM과 적대적 데이터 세트를 통해 이러한 취약점을 실험적으로 검증합니다.

시사점, 한계점

시사점:
LLM의 하위 단어 모델에서 이전에 알려지지 않았던 취약점인 "적대적 토큰화"를 발견했습니다.
적대적 토큰화는 기존의 최첨단 적대적 공격보다 효과적이고 텍스트 변경 없이도 안전 및 정렬 제약을 우회할 수 있습니다.
LLM의 안전성 및 정렬에 대한 새로운 위협을 제시합니다.
LLM의 토큰화 과정에 대한 재검토 및 개선의 필요성을 강조합니다.
한계점:
본 연구는 특정 LLM과 데이터 세트에 국한되어 일반화 가능성에 대한 추가 연구가 필요합니다.
적대적 토큰화 공격에 대한 방어 메커니즘 개발에 대한 연구가 추가적으로 필요합니다.
다양한 토큰화 방식의 의미적 이해에 대한 LLM의 내부 메커니즘에 대한 추가적인 분석이 필요합니다.
👍