Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Linguistic and Embedding-Based Profiling of Texts generated by Humans and Large Language Models

Created by
  • Haebom

저자

Sergio E. Zanotto, Segun Aroyehun

개요

본 논문은 대규모 언어 모델(LLM)이 생성한 텍스트와 인간이 작성한 텍스트를 형태론, 구문론, 의미론 등 다양한 언어 수준의 특징을 사용하여 특징짓는 연구이다. 8개 도메인에서 11개의 다른 LLM에 의해 생성된 인간 작성 텍스트와 기계 생성 텍스트 데이터셋을 사용하여 의존 길이, 감정 등 다양한 언어적 특징을 계산하고, 샘플링 전략, 반복 제어 및 모델 출시일과 함께 인간 작성 텍스트와 기계 생성 텍스트를 특징짓는 데 사용한다. 통계 분석 결과, 인간이 작성한 텍스트는 더 단순한 구문 구조와 더 다양한 의미 내용을 보이는 경향이 있음을 보여준다. 또한 모델과 도메인에 걸쳐 특징의 변동성을 계산하고, 인간과 기계 텍스트 모두 도메인에 걸쳐 스타일의 다양성을 보이며, 인간이 더 큰 특징 변화를 보인다는 것을 발견했다. 마지막으로 스타일 임베딩을 적용하여 인간 작성 텍스트와 기계 생성 텍스트 간의 변동성을 추가로 테스트하고, 최신 모델은 유사하게 변동성 있는 텍스트를 출력하여 기계 생성 텍스트의 동질화를 지적한다.

시사점, 한계점

시사점:
LLM이 생성한 텍스트와 인간이 작성한 텍스트의 언어적 특징 차이를 다양한 수준에서 분석하여 특징을 규명하였다.
LLM 모델의 발전에 따라 기계 생성 텍스트의 동질화 현상이 나타나고 있음을 시사한다.
다양한 도메인과 LLM 모델을 사용하여 분석의 일반화 가능성을 높였다.
한계점:
사용된 데이터셋의 도메인과 LLM 모델의 종류에 따라 결과가 제한될 수 있다.
분석에 사용된 언어적 특징의 종류와 수가 결과에 영향을 미칠 수 있다.
LLM의 발전 속도를 고려했을 때, 연구 결과의 장기적인 유효성에 대한 검토가 필요하다.
👍