본 논문은 대규모 언어 모델(LLM)이 생성한 텍스트와 인간이 작성한 텍스트를 형태론, 구문론, 의미론 등 다양한 언어 수준의 특징을 사용하여 특징짓는 연구이다. 8개 도메인에서 11개의 다른 LLM에 의해 생성된 인간 작성 텍스트와 기계 생성 텍스트 데이터셋을 사용하여 의존 길이, 감정 등 다양한 언어적 특징을 계산하고, 샘플링 전략, 반복 제어 및 모델 출시일과 함께 인간 작성 텍스트와 기계 생성 텍스트를 특징짓는 데 사용한다. 통계 분석 결과, 인간이 작성한 텍스트는 더 단순한 구문 구조와 더 다양한 의미 내용을 보이는 경향이 있음을 보여준다. 또한 모델과 도메인에 걸쳐 특징의 변동성을 계산하고, 인간과 기계 텍스트 모두 도메인에 걸쳐 스타일의 다양성을 보이며, 인간이 더 큰 특징 변화를 보인다는 것을 발견했다. 마지막으로 스타일 임베딩을 적용하여 인간 작성 텍스트와 기계 생성 텍스트 간의 변동성을 추가로 테스트하고, 최신 모델은 유사하게 변동성 있는 텍스트를 출력하여 기계 생성 텍스트의 동질화를 지적한다.