인공지능(AI)이 생성한 기사를 탐지하는 모델들이 개발되었지만, 인간이 작성한 기사를 AI가 약간 수정하는 경우, 이러한 탐지 모델이 이를 AI 생성 기사로 오인할 수 있다. 이로 인해 저자를 AI 표절로 오인하고, AI 탐지 모델의 신뢰성을 저해할 수 있다. 본 논문에서는 아랍어 환경에서 이 문제에 초점을 맞춰, 두 개의 데이터셋을 생성하고 다양한 모델의 성능을 평가했다. 첫 번째 데이터셋은 800개의 아랍어 기사(AI 생성 50%, 인간 작성 50%)를 포함하여 14개의 대규모 언어 모델(LLM) 및 상용 AI 탐지기의 성능을 평가했다. 두 번째 데이터셋(Ar-APT)은 400개의 인간 작성 아랍어 기사를 10개의 LLM을 사용하여 4가지 수정 설정을 적용하여 총 16,400개의 샘플을 생성하여, AI에 의해 약간 수정된 인간 작성 기사를 탐지하는 성능을 평가했다. 실험 결과, 모든 AI 탐지기가 상당수의 기사를 AI 생성으로 오인했으며, 수정 정도에 따라 성능이 크게 저하되는 것을 확인했다.