Sign In

PADBen: A Comprehensive Benchmark for Evaluating AI Text Detectors Against Paraphrase Attacks

Created by
  • Haebom
Category
Empty

저자

Yiwei Zha, Rui Min, Shanu Sushmita

개요

AI 생성 텍스트(AIGT) 탐지기는 LLM 직접 출력에 대해 90% 이상의 정확도를 보이지만, 반복적으로 변경된 텍스트에 대해서는 실패합니다. 본 논문은 반복적 변경된 텍스트가 AIGT 탐지 시스템을 회피하는 이유를 조사합니다. 핵심 메커니즘 분석을 통해, 반복적 변경이 의미론적 변위가 특징인 중간 세탁 영역을 생성하며, 이는 저작권 위장 및 표절 회피라는 두 가지 공격 범주를 야기함을 밝힙니다. 이러한 취약점을 해결하기 위해, 본 논문은 두 가지 변경 공격 시나리오에 대한 탐지기 견고성을 체계적으로 평가하는 최초의 벤치마크인 PADBen을 제시합니다. PADBen은 5가지 유형의 텍스트 분류와 5가지 탐지 작업을 포함합니다. 11개의 최첨단 탐지기를 평가한 결과, 탐지기는 표절 회피 문제는 성공적으로 식별하지만 저작권 위장에는 실패하는 비대칭성을 보였습니다.

시사점, 한계점

시사점:
현재 AIGT 탐지기는 반복적인 변경으로 생성된 텍스트를 효과적으로 탐지하지 못합니다.
반복적 변경은 의미론적 변위를 일으켜 탐지 시스템을 회피합니다.
저작권 위장 공격에 대한 탐지기의 취약성이 심각합니다.
PADBen 벤치마크는 이러한 취약점을 평가하기 위한 새로운 도구를 제공합니다.
한계점:
현재 탐지 방식은 중간 세탁 영역을 효과적으로 처리하지 못합니다.
보다 근본적인 탐지 아키텍처 개선이 필요합니다.
의미론적 및 스타일적 차별 방법에만 의존하는 것은 한계가 있습니다.
👍