[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Stylometry recognizes human and LLM-generated texts in short samples

Created by
  • Haebom

저자

Karol Przystalski, Jan K. Argasinski, Iwona Grabska-Gradzinska, Jeremi K. Ochab

개요

본 논문은 대규모 언어 모델(LLM)이 생성한 텍스트와 인간이 작성한 텍스트를 구분하는 방법으로 스타일 분석(stylometry)을 탐구합니다. 모델 귀속, 지적 재산권, 윤리적인 AI 사용과 같은 문제를 해결하기 위해, 기존의 스타일 분석 기법을 LLM 생성 텍스트에 적용하여 그들의 새로운 서술 패턴을 식별합니다. 위키피디아를 기반으로 인간이 작성한 요약문, 다양한 LLM(GPT-3.5/4, LLaMa 2/3, Orca, Falcon)이 생성한 텍스트, 여러 텍스트 요약 방법(T5, BART, Gensim, Sumy) 및 바꿔쓰기 방법(Dipper, T5)을 거친 텍스트로 구성된 벤치마크 데이터셋을 생성합니다. 10문장 길이의 텍스트를 결정 트리와 LightGBM과 같은 트리 기반 모델을 사용하여 분류하며, 어휘, 문법, 구문, 구두점 패턴을 포함하는 스타일 분석 특징을 사용합니다. 7개 클래스의 다중 분류 시나리오에서 최대 0.87의 Matthews 상관 계수를 달성했고, 이진 분류에서는 0.79~1.0의 정확도를 달성했습니다. 특히 위키피디아와 GPT-4의 경우 균형 잡힌 데이터셋에서 최대 0.98의 정확도를 달성했습니다. Shapley Additive Explanations을 통해 백과사전 유형 텍스트의 특징적인 특징, 과도하게 사용된 단어, 인간이 작성한 텍스트에 비해 LLM의 더 높은 문법 표준화 등을 확인했습니다. 이러한 결과는 점점 더 정교해지는 LLM의 맥락에서, 특정 유형의 텍스트에 대해서는 기계 생성 텍스트와 인간 생성 텍스트를 구분할 수 있음을 보여줍니다.

시사점, 한계점

시사점:
LLM 생성 텍스트와 인간 작성 텍스트의 구분 가능성을 보여주는 실증적 결과 제시.
다양한 LLM과 텍스트 처리 방법을 고려한 포괄적인 벤치마크 데이터셋 구축.
스타일 분석을 통해 LLM 생성 텍스트의 특징적인 패턴 식별 및 해석.
모델 귀속, 지적 재산권, 윤리적인 AI 사용 문제에 대한 해결 방안 제시.
한계점:
특정 유형의 텍스트(위키피디아 요약)에 대한 분석 결과이므로 일반화 가능성 제한.
사용된 LLM 및 텍스트 처리 방법의 제한으로 인한 일반화의 어려움.
더욱 정교한 LLM의 등장에 따라 성능 저하 가능성 존재.
다양한 장르와 길이의 텍스트에 대한 추가 연구 필요.
👍