本論文は、大規模言語モデル(LLM)が生成したテキストと人間が作成したテキストを形態論、構文論、意味論など、さまざまな言語レベルの特徴を用いて特徴づける研究である。 8つのドメインにわたって11のLLMによって生成されたテキストと、人間によって作成されたテキストデータセットを使用して、依存の長さ、感情などのさまざまな言語的特徴を計算しました。統計分析の結果、人間が書いたテキストは、より単純な構文構造とより多様な意味内容を示す傾向があることを明らかにした。さらに、モデルとドメインによる特徴のボラティリティを計算し、人間と機械テキストの両方がドメインに応じてスタイルの多様性を示したが、人間はより大きなボラティリティを示した。スタイル埋め込みを適用して、人間が作成したテキストと機械が生成したテキストのボラティリティをさらに検証し、最新モデルは同様のボラティリティを示すテキストを出力して機械生成テキストの均質化を示唆した。