大規模言語モデル(LLM)の進歩により、LLMが生成するテキストが人間が書いたテキストと区別することが困難になりました。本研究では、テキストが人間によって作成されたか、機械が生成したかを分類するのではなく、形式、構文、セマンティクスなどのさまざまな言語学的特徴を使用してテキストを特徴付けます。 8つのドメインと11のLLMから生成された人間作成テキストと機械生成テキストを選択して、依存性の長さや感性など様々な言語学的特徴を計算し、サンプリング戦略、反復制御、モデルリリース日とともに使用します。人間によって書かれたテキストは、より単純な構文構造とより多様な意味の内容を示しています。モデルとドメイン全体にわたって特徴のボラティリティを計算した結果、人間と機械が生成したテキストの両方がドメインに応じてスタイルが変化し、人間の作成テキストがより大きなボラティリティを示しました。スタイル埋め込みを適用して人間と機械生成テキスト間のボラティリティをさらにテストした結果、最新モデルが同様にボラティリティのあるテキストを生成し、機械生成テキストの均質化を示唆します。