본 논문은 최근 대규모 언어 모델(LLM)의 발전으로 인해 부실한 심사자가 논문 심사 과정에서 LLM에 의존하는 위험성을 제기하며, 이에 대한 해결책으로 AI가 작성한 심사와 인간이 작성한 심사를 포함하는 광범위한 데이터셋을 제시합니다. ICLR과 NeurIPS 두 주요 AI 연구 컨퍼런스의 8년치 논문 심사(총 788,984개)를 포함하는 이 데이터셋을 이용하여 18가지 기존 AI 텍스트 탐지 알고리즘과, 원고 내용을 활용하는 새로운 탐지 방법인 Anchor를 평가하고, LLM을 이용한 인간 작성 텍스트 편집에 대한 탐지 모델의 민감도를 분석합니다. 분석 결과, 개별 심사 수준에서 AI 생성 텍스트를 식별하는 어려움을 밝히고, 이러한 비윤리적인 생성 AI 사용을 탐지하기 위한 새로운 도구와 방법의 필요성을 강조합니다. 데이터셋은 Hugging Face에서 공개적으로 이용 가능합니다.