본 논문은 대규모 언어 모델(LLM)이 생성한 콘텐츠의 오용에 대한 우려가 증가함에 따라, LLM이 생성한 텍스트를 탐지하는 새로운 방법을 제시한다. 기존의 제로샷 접근 방식이 제한된 성공을 거둔 점을 고려하여, 토큰 예측의 어려움에 따라 가중치를 부여하는 Perplexity Attention Weighted Network (PAWN)을 제안한다. PAWN은 LLM의 마지막 히든 상태와 위치 정보를 활용하여 다음 토큰 분포 메트릭 기반의 특징들을 가중치 합산한다. 제로샷 방식은 아니지만, 마지막 히든 상태와 다음 토큰 분포 메트릭을 디스크에 캐싱하여 훈련 자원 요구량을 크게 줄인다. 실험 결과, PAWN은 기존 최고 성능의 기준 모델(미세 조정된 LLM)에 비해 경쟁력 있는 성능을 보이며, 특히 미지의 도메인과 소스 모델에 대한 일반화 성능이 우수하고 적대적 공격에 더 강하며, 다국어 기능을 갖춘 백본을 사용할 경우 훈련 과정에서 보지 못한 언어에도 괜찮은 일반화 성능을 보임을 확인했다 (LLaMA3-1B를 사용한 9개 언어 교차 검증에서 평균 매크로 평균 F1 점수 81.46%).