Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

IPAD: Inverse Prompt for AI Detection -- A Robust and Explainable LLM-Generated Text Detector

Created by
  • Haebom

저자

Zheng Chen, Yushi Feng, Changyang He, Yue Deng, Hongxi Pu, Bo Li

개요

본 논문은 대규모 언어 모델(LLM)이 생성한 텍스트와 인간이 작성한 텍스트를 구별하는 것이 어려워짐에 따라, 신뢰할 수 있는 LLM 생성 텍스트 탐지기의 필요성이 증대되었다는 점을 배경으로 한다. 기존 탐지기는 분포 외 데이터 및 공격 데이터에 대한 낮은 강건성과 해석 가능한 증거 제공의 어려움이라는 한계를 가지고 있다. 이에 본 논문에서는 입력 텍스트를 생성했을 가능성이 있는 프롬프트를 식별하는 프롬프트 반전기와 입력 텍스트가 예측된 프롬프트와 얼마나 일치하는지 확률을 검토하는 두 개의 구별기를 포함하는 새로운 프레임워크인 IPAD(Inverse Prompt for AI Detection)를 제안한다. 실험 결과, IPAD는 기존 최고 성능 모델보다 분포 내 데이터에서 평균 재현율 9.05%, 분포 외 데이터에서 AUROC 12.93%, 공격 데이터에서 AUROC 5.48% 향상된 성능을 보였으며, 구조화된 데이터셋에서도 강건한 성능을 나타냈다. 또한, 의사결정 과정의 증거를 직접 확인할 수 있도록 함으로써 AI 탐지 신뢰성을 높였다는 점을 보여주는 해석성 평가도 수행되었다.

시사점, 한계점

시사점:
기존 LLM 생성 텍스트 탐지기의 한계점인 분포 외 데이터 및 공격 데이터에 대한 취약성을 극복하는 새로운 프레임워크 IPAD 제시.
분포 내, 분포 외, 공격 데이터 모두에서 기존 최고 성능 모델을 능가하는 성능 달성.
구조화된 데이터셋에서도 강건한 성능 입증.
탐지 결과에 대한 해석 가능한 증거 제공을 통해 AI 탐지 신뢰성 향상.
한계점:
IPAD의 성능이 특정 데이터셋이나 공격 방식에 따라 달라질 가능성 존재 (일반화 가능성에 대한 추가 연구 필요).
프롬프트 반전 및 구별 과정의 복잡성으로 인한 계산 비용 증가 가능성.
실제 세계의 다양한 LLM 및 생성 텍스트에 대한 일반화 성능에 대한 추가적인 검증 필요.
👍