Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection

Created by
  • Haebom

저자

Pablo Miralles-Gonzalez, Javier Huertas-Tato, Alejandro Martin, David Camacho

개요

본 논문은 대규모 언어 모델(LLM)이 생성한 콘텐츠의 오용에 대한 우려가 증가함에 따라, LLM이 생성한 텍스트를 탐지하는 새로운 방법을 제시한다. 기존의 제로샷 접근 방식이 제한된 성공을 거둔 점을 고려하여, 토큰 예측의 어려움에 따라 가중치를 부여하는 Perplexity Attention Weighted Network (PAWN)을 제안한다. PAWN은 LLM의 마지막 히든 상태와 위치 정보를 활용하여 다음 토큰 분포 메트릭 기반의 특징들을 가중치 합산한다. 제로샷 방식은 아니지만, 마지막 히든 상태와 다음 토큰 분포 메트릭을 디스크에 캐싱하여 훈련 자원 요구량을 크게 줄인다. 실험 결과, PAWN은 기존 최고 성능의 기준 모델(미세 조정된 LLM)에 비해 경쟁력 있는 성능을 보이며, 특히 미지의 도메인과 소스 모델에 대한 일반화 성능이 우수하고 적대적 공격에 더 강하며, 다국어 기능을 갖춘 백본을 사용할 경우 훈련 과정에서 보지 못한 언어에도 괜찮은 일반화 성능을 보임을 확인했다 (LLaMA3-1B를 사용한 9개 언어 교차 검증에서 평균 매크로 평균 F1 점수 81.46%).

시사점, 한계점

시사점:
LLM 생성 텍스트 탐지 성능 향상: 기존 최고 성능 모델과 비교하여 경쟁력 있는 성능을 보임.
훈련 자원 효율성 증대: 히든 상태와 메트릭 캐싱을 통해 훈련 자원 요구량 감소.
도메인 및 소스 모델 일반화 성능 향상: 미지의 도메인과 소스 모델에 대한 뛰어난 일반화 성능.
적대적 공격에 대한 강건성 향상.
다국어 지원 가능성: 다국어 백본 사용 시 다양한 언어에 대한 일반화 성능 확보.
한계점:
제로샷 방식이 아님: 마지막 히든 상태와 다음 토큰 분포 메트릭을 캐싱하여 사용하므로 완전한 제로샷은 아님.
👍