Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Falsely Accused: How AI Detectors Misjudge Slightly Polished Arabic Articles

Created by
  • Haebom
Category
Empty

저자

Saleh Almohaimeed, Saad Almohaimeed, Mousa Jari, Khaled A. Alobaid, Fahad Alotaibi

개요

인공지능(AI)이 생성한 기사를 탐지하는 모델들이 개발되었지만, 인간이 작성한 기사를 AI가 약간 수정하는 경우, 이러한 탐지 모델이 이를 AI 생성 기사로 오인할 수 있다. 이로 인해 저자를 AI 표절로 오인하고, AI 탐지 모델의 신뢰성을 저해할 수 있다. 본 논문에서는 아랍어 환경에서 이 문제에 초점을 맞춰, 두 개의 데이터셋을 생성하고 다양한 모델의 성능을 평가했다. 첫 번째 데이터셋은 800개의 아랍어 기사(AI 생성 50%, 인간 작성 50%)를 포함하여 14개의 대규모 언어 모델(LLM) 및 상용 AI 탐지기의 성능을 평가했다. 두 번째 데이터셋(Ar-APT)은 400개의 인간 작성 아랍어 기사를 10개의 LLM을 사용하여 4가지 수정 설정을 적용하여 총 16,400개의 샘플을 생성하여, AI에 의해 약간 수정된 인간 작성 기사를 탐지하는 성능을 평가했다. 실험 결과, 모든 AI 탐지기가 상당수의 기사를 AI 생성으로 오인했으며, 수정 정도에 따라 성능이 크게 저하되는 것을 확인했다.

시사점, 한계점

모든 AI 탐지 모델이 약간 수정된 인간 작성 기사를 AI 생성으로 오인하는 경향이 있음
LLM의 수정 정도에 따라 탐지 성능이 크게 저하됨
Claude-4 Sonnet은 83.51%의 최고 성능을 보였지만, LLaMA-3으로 수정된 기사에 대해서는 57.63%로 하락
originality.AI는 92%의 정확도를 보였지만, Mistral 또는 Gemma-3으로 수정된 기사에 대해서는 12%로 하락
아랍어 환경에 특화된 연구로, 다른 언어 환경으로의 일반화에는 추가 연구가 필요함
사용된 LLM 및 수정 설정이 제한적이며, 더 다양한 모델 및 설정을 고려한 연구가 필요함
👍