Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Revealing Weaknesses in Text Watermarking Through Self-Information Rewrite Attacks

Created by
  • Haebom

저자

Yixin Cheng, Hongcheng Guo, Yangming Li, Leonid Sigal

개요

본 논문은 대규모 언어 모델(LLM)의 샘플링 과정을 제어하여 텍스트에 통계적 신호를 미묘하게 삽입하는 텍스트 워터마킹 기술의 취약성을 다룹니다. 기존 텍스트 워터마킹 알고리즘은 텍스트 품질을 유지하기 위해 높은 엔트로피 토큰에 워터마크를 삽입하는데, 이 논문에서는 이러한 설계가 공격자에 의해 악용될 수 있음을 밝힙니다. 연구진은 각 토큰의 자기 정보량을 계산하여 잠재적 패턴 토큰을 식별하고 표적 공격을 수행하는 일반적인 효율적인 패러프레이징 공격인 자기 정보 재작성 공격(SIRA)을 제시합니다. SIRA는 7가지 최신 워터마킹 방법에 대해 거의 100%의 공격 성공률을 달성하며, LLM이나 워터마킹 알고리즘에 대한 접근 없이도 작동합니다.

시사점, 한계점

시사점: 기존 텍스트 워터마킹 알고리즘의 심각한 취약성을 밝히고, 저렴한 비용으로 높은 성공률을 달성하는 효과적인 공격 기법(SIRA)을 제시함으로써 더욱 강력한 워터마킹 기술 개발의 필요성을 강조합니다. 모바일 수준의 모델에도 적용 가능한 일반적인 공격 방법임을 보여줍니다.
한계점: SIRA 공격의 효과는 특정 워터마킹 알고리즘에 국한될 수 있으며, 새로운 워터마킹 기법의 등장에 따라 공격의 효율성이 저하될 가능성이 존재합니다. 또한, 본 논문에서 제시된 공격 기법에 대한 방어 기법에 대한 연구가 추가적으로 필요합니다.
👍