Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Is Your Paper Being Reviewed by an LLM? Benchmarking AI Text Detection in Peer Review

Created by
  • Haebom

저자

Sungduk Yu, Man Luo, Avinash Madusu, Vasudev Lal, Phillip Howard

개요

본 논문은 최근 대규모 언어 모델(LLM)의 발전으로 인해 부실한 심사자가 논문 심사 과정에서 LLM에 의존하는 위험성을 제기하며, 이에 대한 해결책으로 AI가 작성한 심사와 인간이 작성한 심사를 포함하는 광범위한 데이터셋을 제시합니다. ICLR과 NeurIPS 두 주요 AI 연구 컨퍼런스의 8년치 논문 심사(총 788,984개)를 포함하는 이 데이터셋을 이용하여 18가지 기존 AI 텍스트 탐지 알고리즘과, 원고 내용을 활용하는 새로운 탐지 방법인 Anchor를 평가하고, LLM을 이용한 인간 작성 텍스트 편집에 대한 탐지 모델의 민감도를 분석합니다. 분석 결과, 개별 심사 수준에서 AI 생성 텍스트를 식별하는 어려움을 밝히고, 이러한 비윤리적인 생성 AI 사용을 탐지하기 위한 새로운 도구와 방법의 필요성을 강조합니다. 데이터셋은 Hugging Face에서 공개적으로 이용 가능합니다.

시사점, 한계점

시사점:
LLM을 이용한 부정직한 심사 행위의 위험성을 데이터 기반으로 제시.
AI 생성 텍스트 탐지의 어려움을 실증적으로 보여줌.
AI 심사 탐지용 대규모 데이터셋을 제공 (https://huggingface.co/datasets/IntelLabs/AI-Peer-Review-Detection-Benchmark).
기존 탐지 알고리즘 및 새로운 탐지 방법(Anchor)의 성능 평가 결과 제공.
LLM을 이용한 인간 작성 텍스트 편집에 대한 탐지 모델의 민감도 분석 결과 제공.
새로운 AI 탐지 도구 및 방법 개발의 필요성 강조.
한계점:
특정 AI 모델 및 컨퍼런스 데이터에 국한된 결과.
다양한 유형의 LLM 사용 및 LLM을 이용한 편집 방식에 대한 포괄적 분석 부족.
AI 탐지 알고리즘의 지속적인 발전에 대한 고려 부족.
탐지 알고리즘의 실제 적용 가능성 및 효율성에 대한 추가 연구 필요.
👍