# Fine-Grained Detection of AI-Generated Text Using Sentence-Level Segmentation

### 저자

Lekkala Sai Teja, Annepaka Yadagiri, and Partha Pakray, Chukhu Chunka, Mangadoddi Srikar Vardhan

### 개요

본 논문은 인공지능(AI)이 생성한 텍스트를 기존의 문서 단위 분류 방식이 아닌 문장 단위 시퀀스 라벨링 모델을 이용하여 탐지하는 새로운 방법을 제안합니다.  기존의 AI 탐지기는 문서 전체를 분석하여 AI 생성 여부를 판단하기 때문에, AI 생성 텍스트가 인간이 약간 수정하거나 혼합된 경우 탐지가 어렵다는 한계가 있습니다.  본 논문에서 제시하는 모델은 최신 Transformer 모델, 신경망(NN), 조건부 랜덤 필드(CRF)를 결합하여 토큰 수준의 세밀한 분석을 통해 AI 생성 텍스트와 인간 작성 텍스트를 구분합니다.  Transformer는 의미 및 구문 패턴을 추출하고, NN은 향상된 시퀀스 수준 표현을 포착하며, CRF는 시퀀스 인식 및 AI/인간 작성 텍스트 구분을 향상시킵니다.  두 개의 공개 벤치마크 데이터셋을 사용하여 실험을 진행하고, 기존 최첨단 모델 및 제로샷 탐지기와 비교 분석을 수행하여 제안 모델의 성능을 검증했습니다.  소스 코드와 가공된 데이터셋은 GitHub 저장소에서 공개합니다.

### 시사점, 한계점

- **시사점:**

    - 문장 단위 시퀀스 라벨링을 통해 기존의 문서 단위 분류 방식의 한계를 극복하고 AI 생성 텍스트 탐지 정확도를 향상시켰습니다.

    - Transformer, NN, CRF를 결합하여 AI 생성 텍스트의 경계를 더욱 정확하게 식별할 수 있습니다.

    - 토큰 수준의 세밀한 분석을 통해 혼합 또는 약간 수정된 텍스트에서도 AI 생성 부분을 효과적으로 탐지할 수 있습니다.

    - 공개된 소스 코드와 데이터셋을 통해 재현성과 연구 확장성을 높였습니다.

- **한계점:**

    - 제안된 모델의 성능은 사용된 데이터셋에 의존적일 수 있습니다.  다양한 데이터셋에 대한 추가적인 실험이 필요합니다.

    - 새로운 AI 텍스트 생성 기법이 등장할 경우 모델의 성능이 저하될 가능성이 있습니다.  지속적인 모델 업데이트 및 개선이 필요합니다.

    - 실제 응용 환경에서의 성능 평가 및 검증이 추가적으로 필요합니다.

[PDF 보기](https://arxiv.org/pdf/2509.17830)

![https://i.imgur.com/UBEZyaW.jpeg](https://i.imgur.com/UBEZyaW.jpeg)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).